当前位置: 网站首页 > 产品展示
产品展示
【钛坦白】浪潮张清:面向人工智能的计算解决方案
时间:2020-02-28  来源:www.oaled.com

摘要:人工智能正朝着大数据+大模型+大计算的方向发展。使用更大的模型和数据将大大提高训练模型的精度,但它需要更多的计算资源作为支持。

图片来源:Visual China

在第43期钛媒体在线课程“Titanium White”中,我们邀请了三位泰坦带你去思考“人机战争”后人工智能的发展方向。张青是这一时期的泰坦之一,也是浪潮人工智能的总设计师,是《MIC高性能计算编程指南》作者之一,是开源深度学习计算框架的Caffe-MPI设计者之一。并领导完成了语音,图像,安全等深度学习GPU项目,以及传统HPC,视频大数据等多CPU多核,GPU,MIC,FPGA计算项目的方向。

本文摘自“钛”中张青的分享。如果您不是Titanium Media Pro用户,想查看Titanium的所有干货,请进入九个专业的钛白组,并查看更丰富的专业数据和信息,您可以点击: /亲注册。

以下是基于张庆分享钛金的表白:

各位大家好,我是来自浪潮的张青。我非常感谢Titanium Media的邀请。我也很感谢Shuguang和Keda Xunfei两位专家的精彩分享。我今天分享的主题是人工智能的计算解决方案。程序。

在分享之前,我将简要介绍浪潮在人工智能方面的工作。浪潮是人工智能计算系统和解决方案的先进供应商。它能够开发人工智能计算,计算系统构建,软件设计,系统操作和维护服务,完整的人工智能端到端解决方案,计算系统硬件和软件等产品。产品和应用服务系统。在人工智能技术得到广泛应用的互联网领域,浪潮计算设备产品占据了中国大规模互联网市场的80%以上,成为中国第一家人工智能人工计算设备供应商。

AI的发展趋势

人类经历了三次技术革命。蒸汽年龄,电气年龄和信息时代。每次科技革命发生,都给社会带来了巨大的变化和进步。人工智能时代已经到来,它可能成为第四次技术革命。让我们来看看AI市场,行业应用和技术的发展趋势。

人工智能市场的发展趋势

A市场正在蓬勃发展。我们发现,从2012年到2016年,过去五年人工智能投资的年均增长率已达到50%以上。截至2016年,其投资额达到42.5亿美元,人工智能近5个。 M& A和IPO的年增长率为49。85%,2016年达到68个.2020年AI的总市场规模将达到480亿美元。 (来源:CB Insights)

人工智能行业应用趋势

2011年,谷歌和微软研究院的语音识别指导专家使用深度神经网络技术将语音识别的错误率降低了20%至30%,这是语音识别研究的重大突破。 2012年,深度神经网络在图像识别应用方面也取得了重大进展,在ImageNet评估问题中将原始错误率降低了9%。随着人工智能在语音和图像识别方面的巨大成功,互联网行业正在发展越来越多。用户开始应用AI。自2015年以来,越来越多的传统行业用户开始应用AI,如金融公司,医疗公司,汽车制造商和安全公司。今年,我们还看到许多传统科学计算用户开始研究人工智能技术,如气象和石油勘探用户,使用人工智能技术来提高相关应用的预测准确性。

一般来说,AI行业应用用户已逐渐从当前最热门的互联网行业用户演变为传统企业用户和科学计算HPC用户。

AI技术的发展趋势

我们来看两个例子。第一个是用于图像识别的Imagenet游戏。 2012年,Imagenet游戏冠军网络模型是Alexnet。它只有8层。培训所需的计算量相对较小。 1.4GFlop,训练模型的准确度为84%,即误差率为16%。 2015年,经过三年的发展,Imagenet竞赛的冠军网络模型是微软的Resnet,后者变得更加复杂。该模型有152层,层数是Alexnet的19倍。计算量大大增加到22GFlop,但错误率降低到3.5%。

另一个例子是语音识别更令人惊讶。百度设计的语音识别模型2014年参数为2500万。训练数据量为7000小时语料库,误码率为8%。 2015年的培训数据是前一次的两倍。深度学习网络是4倍,数据量的2倍,网络复杂性的4倍,实现的错误率是5%,但它的价格是多少?这是计算量的增加。

从这两个例子可以看出,人工智能技术的发展趋势是朝着大数据+大模型+大计算的方向发展。使用更大的模型和数据将极大地提高训练模型的精度,但需要更多的计算资源作为支持。

AI挑战和计算解决方案

AI主要面临三个挑战:

首先,您需要获得足够的标记数据来训练模型;

其次,有必要设计分布式深度神经网络模型和算法;

第三是需要大型深度学习计算平台和平台管理软件。

针对上述三个挑战,我们从四个层面设计了整个AI计算解决方案:

第一级是平台层;从整个AI计算过程的不同特点出发,我们将设计一个数据预处理平台,一个培训平台,一个推理平台,并采用不同的网络和存储。

第二个层面是管理层;对于复杂的计算平台,我们需要合理的管理,调度,监控和资源分析,并且需要一个系统管理平台。例如,浪潮为深度学习场景设计了深度学习管理平台AIStation。

第三层是框架层;许多开源框架,如Caffe,包括由浪潮设计的Caffe-MPI,谷歌的Tensorflow,百度的Paddlepaddle,微软的CNTK等。这些框架有助于解决深度学习问题。一些培训和推理过程。

第四级是应用层;针对实际应用场景的AI应用程序开发,例如图像和视频应用程序,语音应用程序以及自然语言处理的一些应用程序。我们如何在这些应用场景中使用AI方法和算法?实现。

平台层挑战和解决方案

在设计平台层之前,让我们来看看AI应用程序的计算过程。首先,我们将收集不同的数据,如CT图像数据和语音数据,这些数据将被传输到数据预处理平台进行图像噪声处理。处理完成后,我们将数据标记为训练数据样本集。训练样本集将被发送到模型训练集群进行学习,这是模型训练的过程。模型训练完成后,我们将获得一个智能模型。我们将把它加载到不同的终端,如工作站和手机。平板电脑,或一些云计算平台。最后,我们将推理或识别智能结果,例如CT图像是否有病变,以及识别的方言。

为了更全面地了解AI的整个场景,让我们举一个谷歌医学影像的例子。谷歌首先从医院收集了128,000张眼底照片的数据,然后首先通过图像检测和分割对这些图像进行预处理。处理后,整个眼底特征在预处理后进行标记。在预处理和标记之后,获得训练样本集。这些训练样本集将采用一些深度学习框架,例如TensorFlow来训练模型。经过训练的模型将应用于终端,例如移动电话,以进行辅助诊断。

该应用场景表明,使用AI技术的效果非常好,其综合灵敏度和奇异值达到0.95,高于8位医生的评价值0.91。这种用于医学成像的AI的典型情况基本上涵盖三个过程,即数据预处理,模型训练和推理识别。

但是,数据处理预处理,模型训练和推理识别是不同的。数据预处理主要是IO比较密集,计算量相对较小。模型训练相对较大,沟通相对比较。强化;为了推理识别,需要相对高的吞吐量处理能力和对单个样本的低延迟响应。

根据人工智能计算过程和特点的分析,人工智能平台层设计面临的挑战主要包括三个方面:

首先,在数据预处理阶段,随机读取和写入大量小文件。如何提高数据访问效率是数据预处理阶段的最大挑战。其次,在训练阶段,由于将涉及大量模型进行调整,我们将训练一个最优模型。这里所需的计算资源是巨大的,这是第二个挑战。第三,在推理阶段,在样本(如图片或语音样本)之后,我们如何及时响应,当数千个样本分批进入时,整个系统的吞吐量如何增加,这就是推理阶段?挑战。

因此,AI平台层的设计有多种设计方式:

1.计算架构,采用CPU + GPU + FPGA混合购买模式,使用P100/P40 GPU进行培训,推理采用P4 GPU或FPGA低功耗计算架构。

2.存储架构,对于培训平台,主要采用高性能的分布式Lustre存储;对于在线推理平台,它采用HDFS存储架构进行设计。

3.网络架构,用于培训平台,高速互联IB网络;对于在线推理平台,由于每个计算节点之间不需要通信带宽,所需的网络带宽不需要如此之高,因此一般为10,000兆。 4.计算模式。对于训练平台,如果同时进行训练,多个节点将采用分布式并行模式,如MPI + CUDA计算模式;在线采用Spark/Hadoop + CUDA计算模式。

对于平台层,浪潮提供全线AI计算产品支持,如2 GPU服务器NF5280M4,主要用于在线推理识别。还有4台GPU服务器支持我们和百度联合开发的NF5568M4,8 GPU服务器AGX-2和SR-AI Rack的培训。单GPU BOX实现16 GPU并行,整机实现64 GPU并行。对于在线大规模部署,需要低功耗。我们还设计了FPGA板F10A。整张卡的功耗可达35瓦,性能达到1.5 TFlops。目前,浪潮是领先的人工智能计算供应商。许多用户正在使用浪潮的计算产品,并且大型互联网市场中AI产品的市场份额已达到80%以上。

管理层的挑战和解决方案

整个系统部署完成后,同时存在CPU计算节点和GPU计算节点。如何有效管理整个计算系统有几个挑战:

首先,如何有效地管理不同的计算平台和计算设备,如CPU,GPU或FPGA。

其次,如何为不同的计算任务和计算框架进行合理的调度。

第三,如何监控整个系统和不同的计算操作。

针对上述三大挑战,浪潮的深度学习管理系统AIStation可以实现五个功能:深度学习框架的快速部署,深度学习训练任务的管理,GPU和CPU资源的调度,系统资源和健康状态的监控,应用功能分析。

框架层的挑战和解决方案

目前,开源有很多深度学习框架,如Caffe,TensorFlow,MXNet,Torch等。有很多框架。怎么选择?选择框架还是选择多个?而对于什么样的场景或什么样的模型选择什么样的框架,对于大量的数据,选择多机并行框架。这些是我们在深度学习框架的若干领域面临的挑战。

当我们选择框架时,我们实际上可以对一些当前的主流框架进行审查。在此之前,我们与美国一家知名的互联网公司进行了联合测试,并对他们关心的深度学习框架进行了评估。

我们在我们的16 GPU BOX服务器平台上部署了三个主流框架Caffe,TensorFlow和MXNet,使用Imagenet数据集测试两个典型的网络,Alexnet和GooLeNet。从测试结果来看,当运行Alexnet网络时,Caffe的性能是最好的,每秒的图像数量可以高达4,675,16个GPU的速度是单个GPU的14倍,其次是MXNet,最后是TensorFlow。在运行GooLeNet时,MXNet表现最佳,每秒2,462个图像,16个GPU,比单个GPU快12.7倍,其次是Caffe,最后是TensorFlow。从这个评估的角度来看,基于不同的网络,所选择的最佳框架是不同的。

基本上,有一个通用的原则可供选择:我们将根据不同的场景和模型选择至少一个深度学习框架。如果框架是图像方面,很难说框架可以在所有应用场景中以最佳方式执行。应用程序,主要使用Caffe,TensorFlow和MXNET框架。如果是语音,你可以选择CNTK,当然还有其他框架。对于自然语言处理,您可以使用PaddlePaddle。对于大数据培训,使用独立培训需要很长时间。可以在几周或几个月内训练模型,并且您需要使用分布式框架,例如来自浪潮的Caffe。 -MPI,该框架实现了多机多GPU卡的并行训练。通过实际测试,当Caffe-MPI采用16块GPU卡进行训练时,每秒的效率可达3061,比单卡高13倍,扩展效率为81%,性能几乎是TensorFlow的两倍。 Caffe-MPI目前是Github上的开源软件,可以下载使用。

应用层挑战和解决方案

应用程序层面临以下挑战:

首先,如何使用深度学习方法来提高识别的准确性,这将涉及模型和算法的设计,数据预处理。

二,GPU编程,在训练程序的设计过程中会涉及编写部分GPU代码,例如,我们会添加一些新的图层,会写一些相应的CUDA代码。

第三,FPGA编程,在推理阶段,可能使用FPGA平台,应用需要从CPU迁移到FPGA,使用OpenCL编程或使用底层硬件编程语言Verilog,编程复杂性相对较高。

针对人工智能应用的挑战,建立了两个联合实验室:浪潮 - 英特尔中国并行计算联合实验室和浪潮 - NVIDIA GPU联合实验室。我们有三种异构技术:CPU + GPU,CPU + MIC和CPU + FPGA,可以帮助用户深入设计。一些学位学习模型算法用于迁移和优化GPU,MIC和FPGA应用程序。

在人工智能方面,我们在2014年开始与一些典型的互联网用户合作,例如图形搜索应用程序,其核心算法是Kmeans,它可以帮助用户从CPU迁移到GPU。核心算法的性能提高了35倍,整体应用性能提高了2.2倍。另一个应用是关于语音,主要是语音模型的训练。通过深度学习的方法,我们帮助用户从单GPU版本实现16 GPU卡的并行版本。性能提高了13倍,大大缩短了深度学习培训的整个时间,实现了支持小时以上的语音数据培训。

另一种情况是网络安全的应用。该应用程序使用深度学习技术,用户实现Python算法的基本版本。我们帮助实现GPU的迁移和优化。单GPU计算的性能比原始CPU基准版快90倍。四个GPU并行使用,其性能是基准CPU版本。 270次。

最后一个应用案例是在线语音识别。 DNN深度神经网络用于帮助用户从CPU平台到FPGA平台迁移和优化DNN。一个FPGA卡的性能是两个CPU的2.8倍。功耗仅为CPU的15.7%,性能功耗是CPU的18倍。

基于人工智能系统四级设计面临的挑战和相应的解决方案,我们针对不同的数据源(如图像、视频、语音、文本等)设计了完整的人工智能端到端解决方案,并将其首先发送给我们的CPU。在平台上进行预处理,预处理的数据存储在共享存储中,然后GPU集群培训平台从存储中并行读取培训数据进行培训。整个培训平台可以使用4个GPU,8个GPU。或者16个GPU设备,我们将在培训平台上部署深度学习管理系统aistation和Sky-Eye工具。培训后生成的模型将加载到不同的计算设备上,如P8000 GPU工作站、FPGA卡、GPU人工智能云平台,用于推理识别服务。最后,实现了各种智能化的结果。也就是说,我们的整个人工智能端到端计算解决方案。

钛忏悔群相互作用

1。浪潮的人工智能开发计算平台,如之前发布的GX-2,其他计算产品的特点是什么?

张清:GX-2是目前世界上密度最高的GPU服务器。它可以在2U空间中插入8个GPU卡,支持PCIe,也支持NVLink2.0。

2。浪潮的解决方案均基于GPU。张宗超的人工智能平台与其云计算解决方案或超聚合架构之间的匹配和联系是什么?如何获得数据?硬件使用的是通用服务器?

张清:浪潮在模型培训中的方案主要是GPU解决方案,我们有FPGA解决方案。目前,浪潮的人工智能平台与云计算解决方案或超聚合架构没有匹配和连接。一些数据来自开源社区,一些来自客户,还有一些来自公共平台数据。硬件主要使用通用服务器,也有用户开发的定制服务器,如sr-ai机架。

3.什么是主要的公共数据平台?包括运营商和其他渠道?用户是存放在平台上的用户数据,不应该面对最终用户?

张青:公共数据平台主要是指浪潮的天元大数据。有政府公开数据,联盟合作伙伴数据和浪潮自己的数据。用户在平台上存储的数据仅用作实验,用户的实际场景数据不直接呈现给其他终端用户。

群友:相当于应用层功能,人工智能平台聚合开发者制作的应用程序,然后将用户数据直接累积到平台。

张青:嗯,用户的实验数据会在平台上积累。

(根据浪潮人工智能的首席设计师张青的说法,本文是独家首批钛媒体)关于钛忏悔)

.......

钛忏悔44:医疗信息化的现状和市场机会

详情: