近日,百度智能云发布面向机器学习的HPC解决方案,这将加速机器学习在各个行业的落地速度。

机器学习是当下使用最广泛的人工智能技术之一,与之相匹配的HPC平台也愈加受到市场重视,从超算TOP100的变迁中就可见一斑。

从下图中可以看出,2015年开始,面向数据分析和机器学习的超算平台开始快速增长,2017年更是占比超过50%。除了传统HPC的行业例如科学计算、地理信息等在构建基于机器学习的HPC,更多行业也开始构建基于机器学习的HPC系统,以竞争行业AI能力的领先地位。

超算TOP 100 市场趋势图

随着人工智能落地各行各业,如何构建面向机器学习的HPC系统,让AI模型的构建过程更加简单便利,快速实现AI的行业落地,助力企业快速占据行业领导者地位,商业价值极大。但需要关注的是,面向机器学习的HPC系统与传统HPC系统有着很大的差异,传统的HPC构建模式并不能很好地适应机器学习。

为了加速机器学习的行业落地,在2019百度AI开发者大会上,百度智能云企业级AI开发平台BML联合ABC Storage私有云存储产品发布面向机器学习的HPC解决方案。

该方案可提供高效的端到端机器学习算法算力应用平台和面向机器学习的高性能存储平台,一站式完成数据预处理、模型训练与评估、发布预测服务等工作,快速实现行业数据的AI能力生产落地。

面向机器学区的HPC系统

面向机器学习的HPC系统和传统HPC系统有很大的差异,虽然从采购模式上和基础算力构建上类似,但是两者核心完全不同,主要差异性如下:

一是算法算力。算法框架是基于机器学习和深度学习算法,算力中心更集中在GPU。

二是存储层。机器学习的大量应用计算机视觉领域,主要处理的数据是海量的图片、影像、语音等非结构化数据。传统HPC方案在非结构化数据处理上并不能适应基于深度学习的HPC场景的需求,存储系统需要满足训练过程中数亿甚至百亿的图片、影像的存储和吞吐要求,性能、性能的稳定性都有全新的技术要求。

五大特点 针对超算场景

百度智能云基于深度学习的HPC方案,完全针对机器学习超算场景设计,具有高性能、高效率、易用、灵活、安全的特性:

高性能 系统采用全分布式架构,拥有高并发能力,支持超大规模场景。

高效率 AI训练是一个流程化系统,文件在流程中搬移的时间成本非常高。通过采用ABC Storage高性能存储软件引擎+Optane高效元数据管理介质+QLC SSD高性价比闪存,面向机器学习的HPC方案能覆盖所有流程,数据一次写入,整个生命周期不需要搬移,能持续提供高性能、高稳定的吞吐保障。

易用 作简单,上手迅速,支持一站式开发部署,覆盖了AI开发&部署的全工作流程。一个平台就能完成发起训练任务、获取训练模型、启动预测服务等全流程环节。

灵活解耦 全面支持主流ML/DL框架,同时支持自定义第三方软件库及用户定义集群。

安全 机器学习的数据集通过大量人力标注,具有极高的商业价值。平台可以提供完整的数据权限控制,保障数据使用安全。

百度AI开发平台 BML 产品架构

更多能力提供,优势明显

除了优于传统HPC系统的高性能、高稳定、安全灵活等特点,百度智能云面向机器学习的HPC解决方案还具备更强的兼容性与可扩展能力,以及完整的生态解决方案能力,能够面向不同特征的用户,提供完备的解决方案,加速AI在各行业落地。与普通的HPC系统相比,百度智能云面向机器学习的HPC解决方案具有以下四大明显优势:

全面的功能和体验 提供机器学习和深度学习开发能力,支持主流机器学习与深度学习框架。此外,还提供交互式(Notebook)、可视化(拖拽)、自动化三种建模体验,让不同研发能力的客户都能快速实现模型的训练、评估和预测。

支持飞桨(PaddlePaddle)等主流深度学习框架 实现资源的精细化管理和调度,支持GPU多机多卡和GPU虚拟化,同时支持百度飞桨最新版本、Tensorflow最新版本,并能就其他主流深度学习框架按需灵活扩展。此外,通过内置图像/视频(CV类)模型生产线,能够以产线方式支持CV类模型的流程化、标准化、高效化开发生产。

开放上下层接口,集成方便 提供Open API/SDK接口,便于客户上层应用无缝对接,客户的自有模型、第三方模型都能快速导入并服务。产品分层设计、接口开放,便于与客户私有云、本地机器、大数据平台、运维平台等已有环境有效对接。

一体化交付服务 支持V100 GPU卡、百度自研GPU Box(Xman3.0),能够满足客户多种算力需求,集成百度智能云专业且丰富的硬件供应与交付经验,能力覆盖全面,一条龙服务缩短交付周期。

存储的挑战交给ABC Storage

基于机器学习的AI能力需要大量的算力和数据样本集,结合算法模型反复针对数据进行训练,才能提供用于商用的AI能力模型。在训练过程,存储性能和稳定性尤为关键。

性能方面。百度智能云针对该场景,采用Optane+QLC SSD的硬件方案,结合百度智能云私有云存储ABC Storage的高性能对象存储引擎,在5台存储集群规模下,即可满足200台GPU服务器针对100亿小文件的并发吞吐要求。

稳定性方面。ABC Storage采用Optane作为元数据管理存储介质,可以保障文件数量增长以及读写混合等综合场景下提供高性能稳定的吞吐能力。

值得一提的是,ABC Storage支持InfiniBand网络,也是面向机器学习首推支持InfiniBand的全闪对象解决方案。作为是HPC场景中不可或缺的高性能网络系统,能提供更低延迟和更快网络故障恢复速度的InfiniBand网络是HPC的重要保障。

首推支持InfiniBand的对象存储方案

百度智能云面向机器学习的HPC平台,以自身优异的性能及完整的方案解决能力,已经为众多领域的客户带来实际价值。随着人工智能与各产业的结合向纵深发展,优秀AI平台的价值将日益凸显。未来,百度智能云基于深度学习的HPC方案将把握前沿技术,不断完善与创新,通过端到端的高效、开放、生态化的能力,助推更多企业和研究机构的智能化升级。

了解更多信息,请点击下方链接,亲身体验面向机器学习的基于深度学习的HPC解决方案的强大实力:

https://cloud.baidu.com/product/bml/aibook.html

https://cloud.baidu.com/product/abc-storage.html