AI芯片市场现状及企业竞争状况

    随着大数据的发展,计算能力的提升,AI算法进一步成熟,谁抢占了AI芯片高地,谁就拥有了市场主导权。纵观AI芯片市场,可谓战火纷纷,群雄逐鹿。
  一、AI芯片整体规模
  据前瞻产业研究院发布的《中国人工智能行业市场前瞻与投资战略规划分析报告》统计数据显示,2015中国人工智能市场规模已突破100亿元,到了2016年人工智能市场规模达到142亿元,截止到2017年人工智能市场规模达到了217亿元,预计2018年人工智能市场规模将达339亿元,并预测在2019、2020年人工智能市场规模将达500亿元、710亿元。2015-2020年复合年均增长率为44.5%。
  麦肯锡(McKinsey)的预测显示出惊人的数据:2017年至2025年,人工智能类半导体将成为半导体市场的领头羊,其年复合增长率将比其它所有半导体的总和高出5倍。Tractica的一项调查将进一步解读了这种增长:将中央处理器(CPU)与图形处理器、现场可编程门阵列、特定用途集成电路进行比较。到2019年,基于中央处理器的营业额将从30亿美元左右起步,到2025年将增长到120亿美元左右。基于图形处理器的系统(GPU)的收入将在2019年接近60亿美元,到2025年将增长到约200亿美元。现场可编程门阵列(FPGA)的贡献非常小,到2025年可能只有10亿美元左右。但特定用途集成电路(ASIC)市场份额将从2019年的约20亿美元增长到2025年的约300亿美元。到2022年左右,基于特定用途集成电路的人工智能将在份额上超过基于图形处理器的人工智能。
  二、市场发展环境
  我国人工智能新一轮利好政策正密集落地。《经济参考报》记者获悉,2019年年初,包括成都、浙江在内的多个省市相继出台人工智能产业发展规划,着力加大智能芯片、智能传感器等基础层技术攻关与资金支持,加快培育人工智能产业集聚区和领军企业。业内预计,以基础层为核心的AI芯片投资空间广阔。
  三、AI芯片市场需求及企业竞争状况
  目前AI芯片的市场需求主要是三类:
  1、面向于各大人工智能企业及实验室研发阶段的Training需求(主要是云端,设备端Training需求尚不明确);
  2、InferenceOnCloud,Face++、出门问问、Siri等主流人工智能应用均通过云端提供服务;
  3、InferenceOnDevice,面向智能手机、智能摄像头、机器人/无人机、自动驾驶、VR等设备的设备端推理市场,需要高度定制化、低功耗的AI芯片产品。如华为麒麟970搭载了"神经网络处理单元(NPU,实际为寒武纪的IP)"、苹果A11搭载了"神经网络引擎(NeuralEngine)"。

  (一)Training训练
  2007年以前,人工智能研究受限于当时算法、数据等因素,对于芯片并没有特别强烈的需求,通用的CPU芯片即可提供足够的计算能力。AndrewNg和JeffDean打造的GoogleBrain项目,使用包含16000个CPU核的并行计算平台,训练超过10亿个神经元的深度神经网络。但CPU的串行结构并不适用于深度学习所需的海量数据运算需求,用CPU做深度学习训练效率很低,在早期使用深度学习算法进行语音识别的模型中,拥有429个神经元的输入层,整个网络拥有156M个参数,训练时间超过75天。
  与CPU少量的逻辑运算单元相比,GPU整个就是一个庞大的计算矩阵,GPU具有数以千计的计算核心、可实现10-100倍应用吞吐量,而且它还支持对深度学习至关重要的并行计算能力,可以比传统处理器更加快速,大大加快了训练过程。

  从上图对比来看,在内部结构上,CPU中70%晶体管都是用来构建Cache(高速缓冲存储器)和一部分控制单元,负责逻辑运算的部分(ALU模块)并不多,指令执行是一条接一条的串行过程。GPU由并行计算单元和控制单元以及存储单元构成,拥有大量的核(多达几千个)和大量的高速内存,擅长做类似图像处理的并行计算,以矩阵的分布式形式来实现计算。同CPU不同的是,GPU的计算单元明显增多,特别适合大规模并行计算。
  人工智能的通用计算GPU市场,NVIDIA现在一家独大。2010年NVIDIA就开始布局人工智能产品,2014年发布了新一代PASCALGPU芯片架构,这是NVIDIA的第五代GPU架构,也是首个为深度学习而设计的GPU,它支持所有主流的深度学习计算框架。2016年上半年,NVIDIA又针对神经网络训练过程推出了基于PASCAL架构的TESLAP100芯片以及相应的超级计算机DGX-1。DGX-1包含TESLAP100GPU加速器,采用NVLINK互联技术,软件堆栈包含主要深度学习框架、深度学习SDK、DIGITSGPU训练系统、驱动程序和CUDA,能够快速设计深度神经网络(DNN),拥有高达170TFLOPS的半精度浮点运算能力,相当于250台传统服务器,可以将深度学习的训练速度加快75倍,将CPU性能提升56倍。
  Training市场目前能与NVIDIA竞争的就是Google。今年5月份Google发布了TPU2.0,TPU(TensorProcessingUnit)是Google研发的一款针对深度学习加速的ASIC芯片,第一代TPU仅能用于推理,而目前发布的TPU2.0既可以用于训练神经网络,又可以用于推理。据介绍,TPU2.0包括了四个芯片,每秒可处理180万亿次浮点运算。Google还找到一种方法,使用新的计算机网络将64个TPU组合到一起,升级为所谓的TPUPods,可提供大约11500万亿次浮点运算能力。Google表示,公司新的深度学习翻译模型如果在32块性能最好的GPU上训练,需要一整天的时间,而八分之一个TPUPod就能在6个小时内完成同样的任务。目前Google并不直接出售TPU芯片,而是结合其开源深度学习框架TensorFlow为AI开发者提供TPU云加速的服务,以此发展TPU2的应用和生态,比如TPU2同时发布的TensorFlowResearchCloud(TFRC)。
  上述两家以外,传统CPU/GPU厂家Intel和AMD也在努力进入这Training市场,如Intel推出的XeonPhi+Nervana方案,AMD的下一代VEGA架构GPU芯片等,但从目前市场进展来看很难对NVIDIA构成威胁。初创公司中,Graphcore的IPU处理器(IntelligenceProcessingUnit)据介绍也同时支持Training和Inference。该IPU采用同构多核架构,有超过1000个独立的处理器;支持All-to-All的核间通信,采用BulkSynchronousParallel的同步计算模型;采用大量片上Memory,不直接连接DRAM。
  总之,对于云端的Training(也包括Inference)系统来说,业界比较一致的观点是竞争的核心不是在单一芯片的层面,而是整个软硬件生态的搭建。NVIDIA的CUDA+GPU、Google的TensorFlow+TPU2.0,巨头的竞争也才刚刚开始。
  (二)InferenceOnCloud云端推理
  相对于Training市场上NVIDIA的一家独大,Inference市场竞争则更为分散。若像业界所说的深度学习市场占比(Training占5%,Inference占95%),Inference市场竞争必然会更为激烈。
  在云端推理环节,虽然GPU仍有应用,但并不是最优选择,更多的是采用异构计算方案(CPU/GPU+FPGA/ASIC)来完成云端推理任务。FPGA领域,四大厂商(Xilinx/Altera/Lattice/Microsemi)中的Xilinx和Altera(被Intel收购)在云端加速领域优势明显。Altera在2015年12月被Intel收购,随后推出了Xeon+FPGA的云端方案,同时与Azure、腾讯云、阿里云等均有合作;Xilinx则与IBM、百度云、AWS、腾讯云合作较深入,另外Xilinx还战略投资了国内AI芯片初创公司深鉴科技。目前来看,云端加速领域其他FPGA厂商与Xilinx和Altera还有很大差距。

  ASIC领域,应用于云端推理的商用AI芯片目前主要是Google的TPU1.0/2.0。其中,TPU1.0仅用于DatacenterInference应用。它的核心是由65,536个8-bitMAC组成的矩阵乘法单元,峰值可以达到92TeraOps/second(TOPS)。有一个很大的片上存储器,一共28MiB。它可以支持MLP,CNN和LSTM这些常见的神经网络,并且支持TensorFLow框架。它的平均性能(TOPS)可以达到CPU和GPU的15到30倍,能耗效率(TOPS/W)能到30到80倍。如果使用GPU的DDR5memory,这两个数值可以达到大约GPU的70倍和CPU的200倍。TPU2.0既用于训练,也用于推理,上一节已经做过介绍。
  国内AI芯片公司寒武纪科技据报道也在自主研发云端高性能AI芯片,目前与科大讯飞、曙光等均有合作,但目前还没有详细的产品介绍。
  (三)InferenceOnDevice设备端推理
  设备端推理的应用场景更为多样化,智能手机、ADAS、智能摄像头、语音交互、VR/AR等设备需求各异,需要更为定制化、低功耗、低成本的嵌入式解决方案,这就给了创业公司更多机会,市场竞争生态也会更加多样化。
  1)智能手机
  华为9月初发布的麒麟970AI芯片就搭载了神经网络处理器NPU(寒武纪IP)。麒麟970采用了TSMC10nm工艺制程,拥有55亿个晶体管,功耗相比上一代芯片降低20%。CPU架构方面为4核A73+4核A53组成8核心,能耗同比上一代芯片得到20%的提升;GPU方面采用了12核MaliG72MP12GPU,在图形处理以及能效两项关键指标方面分别提升20%和50%;NPU采用HiAI移动计算架构,在FP16下提供的运算性能可以达到1.92TFLOPs,相比四个Cortex-A73核心,处理同样的AI任务,有大约50倍能效和25倍性能优势。
  苹果最新发布的A11仿生芯片也搭载了神经网络单元。据介绍,A11仿生芯片有43亿个晶体管,采用TSMC10纳米FinFET工艺制程。CPU采用了六核心设计,由2个高性能核心与4个高能效核心组成。相比A10Fusion,其中两个性能核心的速度提升了25%,四个能效核心的速度提升了70%;GPU采用了苹果自主设计的三核心GPU图形处理单元,图形处理速度与上一代相比最高提升可达30%之多;神经网络引擎NPU采用双核设计,每秒运算次数最高可达6000亿次,主要用于胜任机器学习任务,能够识别人物、地点和物体等,能够分担CPU和GPU的任务,大幅提升芯片的运算效率。
  另外,高通从2014年开始也公开了NPU的研发,并且在最新两代骁龙8xx芯片上都有所体现,例如骁龙835就集成了"骁龙神经处理引擎软件框架",提供对定制神经网络层的支持,OEM厂商和软件开发商都可以基于此打造自己的神经网络单元。ARM在今年所发布的Cortex-A75和Cortex-A55中也融入了自家的AI神经网络DynamIQ技术,据介绍,DynamIQ技术在未来3-5年内可实现比当前设备高50倍的AI性能,可将特定硬件加速器的反应速度提升10倍。总体来看,智能手机未来AI芯片的生态基本可以断定仍会掌握在传统SoC商手中。
  2)自动驾驶
  NVIDIA去年发布自动驾驶开发平台DRIVEPX2,基于16nmFinFET工艺,功耗高达250W,采用水冷散热设计;支持12路摄像头输入、激光定位、雷达和超声波传感器;CPU采用两颗新一代NVIDIATegra处理器,当中包括了8个A57核心和4个Denver核心;GPU采用新一代Pascal架构,单精度计算能力达到8TFlops,超越TITANX,有后者10倍以上的深度学习计算能力。Intel收购的Mobileye、高通收购的NXP、英飞凌、瑞萨等汽车电子巨头也提供ADAS芯片和算法。初创公司中,地平线的深度学习处理器(BPU,BrainProcessorUnit)IP及其自研雨果(Hugo)平台也是重点面向自动驾驶领域。

  3)计算机视觉领域
  Intel收购的Movidius是主要的芯片提供商,大疆无人机、海康威视和大华股份的智能监控摄像头均使用了Movidius的Myriad系列芯片。目前国内做计算机视觉技术的公司中,商汤科技、Face++、云从、依图等,未来有可能随着其自身计算机视觉技术的积累渐深,部分公司向上游延伸去做CV芯片研发。另外,国内还有如人人智能、智芯原动等创业公司提供摄像头端的AI加速IP及芯片解决方案。
  4)其他
  VR设备芯片的代表为微软为自身VR设备Hololens而研发的HPU芯片,这颗由台积电代工的芯片能同时处理来自5个摄像头、一个深度传感器以及运动传感器的数据,并具备计算机视觉的矩阵运算和CNN运算的加速功能;语音交互设备芯片方面,国内有启英泰伦以及云知声两家公司,其提供的芯片方案均内置了为语音识别而优化的深度神经网络加速方案,实现设备的语音离线识别;在泛IOT领域,NovuMind设计了一种仅使用3×3卷积过滤器的AI芯片,第一款芯片原型预计今年底推出,预计可实现耗能不超过5瓦进行15万亿次浮点运算,可以广泛应用于各类小型的互联网"边缘"设备。
  (四)新架构-类脑计算芯片
  "类脑芯片"是指参考人脑神经元结构和人脑感知认知方式来设计的芯片,其目标是开发出打破冯·诺依曼架构体系的芯片。这一领域目前仍处于探索阶段,如欧盟支持的SpiNNaker和BrainScaleS、斯坦福大学的Neurogrid、IBM公司的TrueNorth以及高通公司的Zeroth等;国内Westwell、清华大学、浙江大学、电子科技大学等也有相关研究。
  IBM的TrueNorth,2014年公布。在一颗芯片上集成了4096个内核,100万个神经元、2.56亿个可编程突触,使用了三星的28nm的工艺,共540万个晶体管;每秒可执行460亿次突触运算,总功耗为70mW,每平方厘米功耗20mW。IBM的最终目标就是希望建立一台包含100亿个神经元和100万亿个突触的计算机,这样的计算机要比人类大脑的功都强大10倍,而功耗只有一千瓦,而且重量不到两升。
  国内AI初创公司西井科技Westwell是用FPGA模拟神经元以实现SNN的工作方式,有两款产品:
  1、仿生类脑神经元芯片DeepSouth(深南),第三代脉冲神经网络芯片SNN,基于STDP(spike-time-dependentplasticity)的算法构建完整的突触神经网络,由电路模拟真实生物神经元产生脉冲的仿生学芯片,通过动态分配的方法能模拟出高达5000万级别的"神经元",功耗为传统芯片在同一任务下的几十分之一到几百分之一。
  2、深度学习类脑神经元芯片DeepWell(深井),处理模式识别问题的通用智能芯片,基于在线伪逆矩阵求解算法(OPIUMlite)对芯片中神经元间的连接权重进行学习和调整;拥12800万个神经元,通过专属指令集调整芯片中神经元资源的分配;学习与识别速度远远高于运行在通用硬件(如CPU,GPU)上的传统方法(如CNN),且功耗更低。
  总体来看,类脑计算芯片领域仍处于探索阶段,距离规模化商用仍有比较远的距离。