明德扬就业班现正火热招生中,课程主要传授至简设计法,100天的课程足以满足岗位需要,包就业推荐,详情点击咨询...

人工智能芯片行业深度报告——谁会成为下一个ARM,FPGA大有可为

发布时间:2017-12-26

1. 时代的机遇:谁会成为人工智能时代的ARM

1.1人工智能时代:AI+将无处不在

随着大数据的发展,计算能力的提升,人工智能近两年迎来了新一轮的爆发。2016年谷歌AlphaGo赢得了围棋大战后,人工智能在产业界和资本圈引起了高度关注,成为新的风口。

人工智能的三个核心要素是数据、算法和计算能力。人工智能之前经历过数次兴衰,一直未能取得突破的障碍主要是数据和计算能力的限制。相比前几次的热潮,目前人工智能在数据、算法和计算能力方面都有坚实的基础。因此,我们相信人工智能并不仅是一个风口,而是即将迎来真正属于自己的时代。

人工智能并不是一个单独的存在,而必须要和其他产业结合起来才能创造提升效率,创造价值。未来将不存在所谓的人工智能,而是人工智能和其他产业的融合,也就是AI+。展望未来,AI+将无处不在。

按照当前人工智能实现的基本功能来分类,主要有四部分:图像认知能力、语音语义理解能力、数据分析能力、整合多种能力的机器人。下面我们将分别按这几种基本功能来介绍人工智能的应用:

图像认知能力的应用。最常见的应用包括视频安防人脸识别、客流统计、智能交通管理等面向企业的应用,还有视频直播中的鉴黄系统等方面。而在面向个人应用方面,包括拍照软件中的图片分类检索功能和相册管理等。

语音语义理解能力的应用。语音是人机最自然的交互方式,现在已经被验证的应用包括客服机器人,呼叫中心,私人助理Siri,亚马逊的Echo音响等。未来,随着语音语义理解能力的提升,语音有望成为新一代的入口,并衍生出各种应用。

数据分析能力的应用。数据分析应用范围非常广,在金融中有市场营销分析,风险管控、智能投顾等。在财务审计方面自动生成报表,文案辅助上自动给招聘文案打分并提出修改建议,人力资源上自动寻找合适的候选者,编程辅助上自动显示相关的函数用法信息。

智能机器人。软体机器人可以让机器人更接近生物,做出很多人做不好的事情,例如精细抓取、肌肉仿生、穿越障碍等;微型机器人广泛应用于各领域,未来有希望跟纳米技术结合,在医疗领域取得突破;集群机器人可以进行协同搬运,海洋探测等,应用领域会进一步拓展。

人工智能整体仍处市场早期,但是未来空间巨大。根据国外调查机构Tractica的统计预测数字,2016年全球人工智能收入为6.4亿美元,到2025年预计将增长至368亿美元。从人工智能的主要构成来看,规模最大的细分市场分别是机器学习应用、自然语言理解、计算机视觉、虚拟个人助手和智能机器人等。在未来10年甚至更久的时间里,人工智能将是众多智能产业技术和应用发展的突破点,市场空间非常巨大。

image.png

1.2 智能手机时代ARM公司的“戴维斯双击”

在产业发展史中,每一场重要的产业变革总会带来新的重大机遇。如果能够在新兴产业中占据核心产业链位臵,必将能够充分享受新兴产业爆发性增长带来的红利。ARM在智能手机时代的经历就是最好的例证。ARM公司历史简介如下:

ARM公司1978年在英国成立。1985年,ARM设计了第一代32位、6MHz的处理器,用它做出了一台RISC指令集的计算机。ARM采用的RISC指令集,全称是"精简指令集计算机"(reducedinstructionsetcomputer),它支持的指令比较简单,虽然功能远不如英特尔处理器强大,但是功耗小、价格便宜。

当时处理器行业的霸主是英特尔,它采用的是X86的CISC指令集,占据着PC处理器市场绝大多数的市场份额。ARM处理器能力不足,根本无法撼动英特尔在PC处理器的市场份额。

ARM处理器另辟蹊径,在嵌入式设备市场找到了发展空间。它被广泛用在各种嵌入式设备中,包括苹果公司的牛顿PDA。这些嵌入式设备不需要处理器性能多么强大,而对功耗价格却有很高的要求,这与ARM处理器的特性正好一拍即合。

尽管找到了市场立足点,但是整个20世纪90年代,ARM公司的业绩平平,处理器的出货量徘徊不前。直到进入21世纪之后,由于手机的快速发展,ARM处理器迎来了快速增长。

而在2007年,ARM迎来了历史性的机遇——智能手机时代的到来。2007年,乔布斯发布了第一代iPhone,使用的就是三星制造、ARM设计的芯片。此后的每一款iPhone都采用了ARM架构,稍后推出的谷歌Android手机同样采用了ARM架构。

ARM架构成为了智能手机的“事实标准”。2015年,包括高通、三星、联发科等在内的全球1384家移动芯片制造商都采用了ARM的架构,全球有超过85%的智能手机和平板电脑的芯片都采用的是ARM架构的处理器,超过70%的智能电视也在使用ARM的处理器。

在此期间,ARM公司营业收入从2008年的3亿英镑增长到2013年的7.14亿英镑,同期净利润从0.44亿英镑增至2亿英镑,净利润CAGR为35.6%。

从股价表现来看,ARM股价受08年金融危机影响下跌到2008年底的80多英镑,此后两年多,连续上涨到2011年初的600多英镑,期间涨幅超过600%。

image.png

总结起来,ARM公司之前在嵌入式处理器这个小众市场中占据领导地位,业绩一直徘徊不前。而后随着智能手机市场爆发,ARM处理器作为整个智能手机的底层硬件平台架构,充分享受了下游市场爆发带来的红利。ARM公司业绩在2008年到2013年出现了爆发性增长,而股价更是表现出“戴维斯双击”。

1.3 人工智能时代:底层计算平台存在着大机会

在人工智能时代,人们对计算能力的需求有指数级的提高,计算能力的要求超过了摩尔定律。随着互联网用户的快速增长,数据体量的急剧膨胀,数据中心对计算的需求也在迅猛上涨。诸如深度学习在线预测、直播中的视频转码、图片压缩解压缩以及HTTPS加密等各类应用对计算的需求已远远超出了传统CPU处理器的能力所及。除此之外,未来在激光雷达、无人机、无人驾驶、智能机器人等终端设备方面对计算能力也会有极大的提升。

另一方面,摩尔定律正在失效,传统X86架构下计算能力的提升开始滞后于摩尔定律。近几年半导体技术改进达到了物理极限,电路越来越复杂,每一个设计的开发成本高达数百万美元,数十亿美元才能形成新产品投产能力。2016年3月24日,英特尔宣布正式停用“Tick-Tock”处理器研发模式,未来研发周期将从两年周期向三年期转变。至此,摩尔定律对英特尔几近失效。

因此,计算能力的需求供给出现了一个巨大的缺口。一方面处理器性能再无法按照摩尔定律进行增长,另一方面数据增长对计算性能要求超过了按“摩尔定律”增长的速度。处理器本身无法满足高性能计算(HPC:High Performance Compute)应用软件的性能需求。

image.png

巨大的缺口同时也是时代的机遇:传统X86架构芯片无法满足需求,时代呼唤新一代的计算芯片平台。谁能成为下一代硬件芯片平台,就有望随着海量计算需求的大爆发,上演ARM在智能手机时代爆发的辉煌。

2. 人工智能芯片决胜的主战场在推理环节

提起人工智能芯片,很多人认为人工智能芯片是一条好的赛道,但是胜负已经明了,英伟达就是最终的赢家。特别是随着2016年以来人工智能的浪潮,英伟达股价从不到20美元一路上涨到160多美元,更是助长了这种情绪的蔓延。

我们的观点很简单:目前,英伟达的GPU在训练场景中占据着绝对领导地位。而人工智能整体仍然处于早期阶段,未来人工智能应用的主战场是在推理环节,远没有爆发。未来胜负尚未可知,各家技术路线都有机会胜出。

从应用场景来看,人工智能芯片主要应用在训练(training)和推理(inference)两个环节。训练环节的作用是指利用海量数据,选择合适的训练方法,训练出一个人工智能模型。训练环节最关心的指标是速度快。国内外的人工智能巨头公司都建立了庞大的GPU集群,以最快速度处理海量数据训练、验证模型的有效性。

image.png

而在线推理环节也就是人工智能模型的实际应用环节,是指利用训练出来的模型来在线响应用户的需求。推理环节又分为两个场景,一个是在云端数据中心响应用户需求,一个是在前端智能设备响应用户需求。

在云端数据中心,各家公有云服务厂商都纷纷部署了高性能云计算服务器,应用于视频编解码、深度学习、科学计算等多种场景。随着人工智能技术的发展,未来云端数据中心应用场景还会有极大的丰富。

而在前端智能设备,受模型算法以及计算能力的限制,目前应用还不多。但是基于实时性及隐私安全要求,很多应用都会在前端部署,未来市场空间非常巨大。我们以无人驾驶和智能服务机器人为例说明。

?在无人驾驶中,无人驾驶汽车需要实时处理来自激光雷达、摄像头等多路传感器传输的海量数据并作出实时反映。如果通过云端反馈处理,则必然会增加时延和不确定性,导致无人汽车安全性下降。因此,无人驾驶中必须将计算平台部署在前端。

?在智能家居中,未来包括智能服务机器人在内的智能家居设备都需要具备实时环境感知能力及语音语义理解能力等,这些也都需要强大的计算平台作为底层支撑。而基于私密性考虑,不可能把智能家居的数据都上传云端处理。因此,智能家居的应用也需要计算平台部署在前端设备中。

image.png

与训练环节不同,推理环节更重视性能功耗比。云端数据中心对高并发更加重视,而前端智能设备则对低延时更加重视。

从市场潜力来看,未来市场规模最大的肯定是推理环节。人工智能的发展,首先需要训练出足够好的算法模型。而当人工智能真正落地应用时候,则需要在大量的云端数据中心或者前端智能设备上部署应用。

以人脸识别为例,我们需要在GPU集群中经过多次训练才能得到一个足够好的人脸识别算法模型,而当把人脸识别应用于实际应用时候,我们需要将模型部署在成千上万台服务器进行实时人脸识别,甚至在上亿台摄像机中前臵部署部分算法进行预处理。由此可见,推理环节才是未来最大的潜在市场,也是人工智能芯片决胜的主战场。在推理环节还远没有爆发的时候。未来胜负尚未可知,各家技术路线都有机会胜出。

3.几种芯片架构的技术特点:各有千秋

人工智能芯片,目前有两种发展路径:一种是延续传统计算架构,加速硬件计算能力,主要以3种类型的芯片为代表,即GPU、FPGA和ASIC,但CPU依旧发挥着不可替代的作用;另一种是颠覆经典的冯诺依曼计算架构,采用人脑神经元的结构来提升计算能力,以IBMTrueNorth芯片为代表。由于人脑神经元芯片距离产业化仍然较远,我们着重讨论在人工智能时代GPU,FPGA和ASIC的应用和未来发展可能性。

按照处理器芯片的效率排序,从低到高依次是CPU、DSP、GPU、FPGA和ASIC。沿着CPU->ASIC的方向,芯片中晶体管的效率越来越高。因为FPGA&ASIC等芯片实现的算法直接用晶体管门电路实现,比起指令系统,算法直接建筑在物理结构之上,没有中间层次,因此晶体管的效率最高。CPU&GPU需要软件支持,而FPGA&ASIC则是软硬件一体的架构,软件就是硬件。

而按照晶体管易用性排序是相反的。从ASIC到CPU,芯片的易用性越来越强。CPU&GPU的编程需要编译系统的支持,编译系统的作用是把高级软件语言翻译成机器可以识别的指令(也叫机器语言)。高级语言带来了极大的便利性和易用性,因此用CPU&GPU实现同等功能的软件开发周期要远低于FPGA&ASIC芯片。

image.png

3.1 CPU仍然是最好的通用处理器之一

CPU作为通用处理器,兼顾计算和控制,70%晶体管用来构建Cache还有一部分控制单元,用来处理复杂逻辑和提高指令的执行效率,如图所示,所以导致计算通用性强,可以处理计算复杂度高,但计算性能一般。

目前,英特尔等芯片制造商主要通过增加CPU核数来增加计算能力,但是因为每个物理核中只有30%的晶体管是计算单元。通过这种方式来增加计算能力并不划算,还带来芯片功耗和价格的增加。

此外,英特尔进行CPU架构调整的时间也在放缓。原来英特尔按照“Tick-Tock”二年一个周期进行CPU架构调整,从2016年开始放缓至三年,更新迭代周期较长。

由此可见,CPU仍然最好的通用处理器之一,但是在高性能计算上,CPU越来越无法满足计算能力提升的需求。

image.png

3.2 GPU具有最强大的并行计算能力

GPU主要擅长做类似图像处理的并行计算,所谓的“粗粒度并行(coarse-grainparallelism)”。图形处理计算的特征表现为高密度的计算而计算需要的数据之间较少存在相关性,GPU提供大量的计算单元(多达几千个计算单元)和大量的高速内存,可以同时对很多像素进行并行处理。

GPU的设计出发点就是用于计算强度高、多并行的计算。GPU把晶体管更多用于计算单元,而不像CPU用于数据Cache和流程控制器。GPU中逻辑控制单元不需要能够快速处理复杂控制。并行计算时,每个数据单元执行相同程序,不需要繁琐的流程控制而更需要高计算能力,因此也不需要大的cache容量。

GPU同CPU一样也是指令执行过程:取指令->指令译码->指令执行,只有在指令执行的时候,计算单元才发挥作用。GPU的逻辑控制单元相比CPU简单,要想做到指令流水处理,提高指令执行效率,必然要求处理的算法本身复杂度低,处理的数据之间相互独立,所以算法本身的串行处理会导致GPU浮点计算能力的显著降低。

GPU具有最强大的并行计算处理能力。以GP100为例,其双精度运算能力是5.3Teraflops,单精度为10.6Teraflops(AMD双芯RadeonProDuo是16TeraFLOPs)。而英伟达在开发者大会GTC2017上发布新一代GPU架构Volta,首款核心为GV100据称其在推理场景下,V100比上一代搭载GP100CPU的P100板卡,图像处理能力提升了约10倍,延迟也下降了约30%。

image.png

3.3 FPGA:万能芯片

FPGA即现场可编程门阵列,它不采用指令和软件,是软硬件合一的器件。FPGA由于算法是定制的,没有CPU和GPU的取指令和指令译码过程,数据流直接根据定制的算法进行固定操作,计算单元在每个时钟周期上都可以执行,所以可以充分发挥浮点计算能力,计算效率高于CPU和GPU。

image.png

整个FPGA市场规模约50亿美元。由于FPGA万能芯片的特点,它被芯片厂商用作芯片原型设计和验证,还广泛使用在通讯密集型和计算密集型市场中,使用行业包括通讯、军工、汽车电子、消费及医疗等行业。

FPGA的缺点在于进行编程要使用硬件描述语言,而掌握硬件描述语言的人才太少,限制了其使用的拓展。

3.4 ASIC:高性能功耗比的专用芯片

ASIC是一种专用芯片,与传统的通用芯片有一定的差异。是为了某种特定的需求而专门定制的芯片。ASIC芯片的计算能力和计算效率都可以根据算法需要进行定制,所以ASIC与通用芯片相比,具有以下几个方面的优越性:体积小、功耗低、计算性能高、计算效率高、芯片出货量越大成本越低。但是缺点也很明显:算法是固定的,一旦算法变化就可能无法使用。

与FPGA相比,ASIC上市速度慢,需要大量时间开发,而且一次性成本(光刻掩模制作成本)远高于FPGA,但是性能高于FPGA且量产后平均成本低于FPGA。在同一时间点上用最好的工艺实现的ASIC的加速器的速度会比用同样工艺FPGA做的加速器速度快5-10倍,而且一旦量产后ASIC的成本会远远低于FPGA方案。

image.png

4. FPGA未来大有可为

从技术上来看,GPU、FPGA和ASIC都各有千秋。从实际应用来看,GPU拥有最完善的生态系统支撑,具有较大的先发优势。由于市场对此已经充分预期,我们在此就不再赘述。

人工智能在推理环节应用刚起步,云端要比前端设备发展速度更快。下面我们将重点讲述一下云端数据中心的应用。在数据中心,FPGA使用日益广泛,而ASIC路线风险太高,目前仅有谷歌批量部署了TPU。

4.1 FPGA已在全球七大数据中心实际部署

FPGA最大的优点是动态可重配、性能功耗比高,非常适合在云端数据中心部署。

当在数据中心部署之后,FPGA可以根据业务形态来配臵不同的逻辑实现不同的硬件加速功能。以腾讯云为例,当前服务器上的FPGA板卡部署的是图片压缩逻辑,服务于QQ业务;而此时广告实时预估需要扩容获得更多的FPGA计算资源,通过简单的FPGA重配流程,FPGA板卡即可以变身成“新”硬件来服务广告实时预估,非常适合批量部署。

FPGA的性能功耗比显著高于GPU。以普遍使用在服务器中的FPGA型号A10GX660为例,性能/功耗能达到45GFLOPS/W,而对应的GPU型号M4,性能/功耗能达到29GFLOPS/W。依次测算FPGA性能功耗比要高50%。

image.png

近两年,全球七大超级云计算数据中心包括IBM、Facebook、微软、AWS以及BAT都采用了FPGA服务器。在这方面,中国和美国处以同一起跑线。

image.png

4.2 行业发展趋势:FPGA大有可为

fpga招聘 fpga求职 fpga培训 verilog入门 verilog verilog基本知识

fpga时序约束 fpga入门资料 fpga入门 fpga如何入门


比使用现状更重要的是未来的技术和产业发展趋势。从行业发展趋势来看,我们认为FPGA潜力被低估了,未来大有可为。具体如下:

4.2.1 算法正在快速迭代中

人工智能算法正处于快速迭代中。虽然ASIC芯片可以获得最优的性能,即面积利用率高、速度快、功耗低;但是AISC开发风险极大,需要有足够大的市场来保证成本价格,而且从研发到市场的时间周期很长,不适合例如深度学习CNN等算法正在快速迭代的领域。因此,推出ASIC芯片风险非常高,且成本太高,只有谷歌等极少数公司敢于尝试。

更重要的是,当前人工智能算法模型的发展趋势是从训练环节向推理环节走,这个过程非常有利于FPGA未来的发展。人工智能算法模型从训练环节走向推理环节并不是简单搬运过去。训练出来的算法模型往往规模太大,复杂度太高,无法直接部署实际应用。现在,人工智能算法模型研究的重要趋势就是将训练后的模型再进行压缩,在基本不损失模型精度的情况下,将模型压缩到原来的几十分之一,再应用到推理环节。

image.png

以深鉴科技的研究成果为例,公司发布的论文《ESE :Efficient Speech Recognition Engine with Sparse LSTM on FPGA 》指出,长短期记忆网络(LSTM)被广泛用于语音识别领域。为实现更高的预测精度,机器学习研究者们构建了越来越大的模型。然而这样的模型十分耗费计算和存储资源。部署此类笨重的模型会给数据中心带来很高的功耗,从而带来很高的总拥有成本(TCO)。

公司提出了一种可以在几乎没有预测精度损失的情况下将LSTM模型的尺寸压缩20倍(10倍来自剪枝和2倍来自量化)的负载平衡感知剪枝(load-balance-awarepruning)方法。

最后,它们设计了一种可以直接在这种压缩模型上工作的硬件框架——EfficientSpeechRecognitionEngine(ESE)。该框架使用了运行频率为200MHz的XilinxXCKU060FPGA,具有以282GOPS的速度直接运行压缩LSTM网络的性能,相当于在未压缩LSTM网络上2.52TOPS的速度;此外,该框架执行一个用于语音识别任务的全LSTM仅需41W功耗。在基于LSTM的语音基准测试中,ESE的速度为英特尔Corei75930kCPU的43倍,英伟达PascalTitanXGPU的3倍。它的能量效率分别为以上两种处理器的40倍和11.5倍。

这篇论文验证了我们上述观点:

人工智能算法正处于快速迭代中。公司提出的新算法,可以在几乎没有预测精度损失的情况下将LSTM模型的尺寸压缩20倍(10倍来自剪枝和2倍来自量化)。在算法能够带来数量级的性能提升下,想要将算法固化在ASIC中来获得效率提升的想法是不切实际的。

fpga招聘 fpga求职 fpga培训 verilog入门 verilog verilog基本知识

fpga时序约束 fpga入门资料 fpga入门 fpga如何入门

采用了搭建在FPGA上的硬件框架ESE,获得了高一个数量级的能量效率提升。ESE的速度为英特尔Corei75930kCPU的43倍,英伟达PascalTitanXGPU的3倍。它的能量效率分别为以上两种处理器的40倍和11.5倍。采用FPGA搭建硬件框架充分发挥了FPGA万能芯片的特性,性能远超GPU等。

4.2.2 芯片NRE费用在指数级上升

集成电路行业的特点是赢家通吃,像CPU处理器,只有英特尔一家独大,门槛极高。而随着芯片制程工艺的提升,芯片NRE费用呈现指数级上升。这样导致的结果是需要收回成本的芯片销售规模门槛越来越高。市场上能够满足如此大市场规模要求的单品是非常少的。

免费申请试听课程

  •   
  •   
  •   
  •  
  • 提  交
  • FPGA教育领域第一品牌
  • 咨询热线:020-39002701
  • 技术老师:1411324938
  • 技术Q群:97925396