Hi,欢迎
86-755-88844016 6*12小时在线电话
AI高性能计算---存算一体
2023-08-22

存算一体或存内计算是将存储与计算完全融合,直接利用存储器进行数据处理或计算。在传统的冯诺依曼架构下,数据的存储和计算是分开的,由于存储和计算的性能存在加大的差距,处理器访问存储数据的速率远远小于处理器计算速率,数据在内存与主存之间搬运的过程其能耗也远远高于处理器的计算所消耗的能量。

从NPU和TPU的架构设计可以看出,其本质都是在解决数据高效访存的问题,只是实现方式略有差异。总结看来主要包括了:

  1. 通过提高通信带宽实现数据的高速传输和降低功耗。

  2. 将数据存储尽量靠近计算单元,从而降低数据搬运的延迟和功耗,比如多级缓存和片上存储。

  3. 提高数据在时间和空间上的复用效率,减少数据与主存的通信次数。

存算一体通过将计算单元和存储单元集成在同一个芯片,让存储单元具有计算能力,使得计算可以在存储器单元内完成,极大的降低了数据搬运带来的延迟和功耗,其特别适用于深度学习这种需要大规模的数据搬运和大规模并行计算的场景。

存内计算

存内计算一般包括数字计算和模拟计算两种实现方式,模拟计算能效高但计算精准度低,数字计算计算精准度高但功耗较大,当前主流的存内计算主要还是以模拟计算为主。

模拟存内计算主要基于物理定律在存算阵列上实现乘加运算,以忆阻器上的矩阵乘法MxN为例,运算前,先将矩阵M按行列位置存入忆阻器,在输入端矩阵M使用不同电压值来表示,根据欧姆定律和基尔霍夫定律在输出端可以得到对应的乘加后电流矢量,多个存算阵列并行,便可完成多个矩阵乘法计算。

数字存内计算是通过在存储阵列中加入与或门、乘法器、加法器等逻辑计算电路,使存储阵列不仅具备存储功能还具备计算能力。由于需要为每个存储单元增加了逻辑电路,所以其在芯片面积上并不占优势,限制了其计算能力的拓展,因此,当前数字存内计算实现更多的采用先进工艺来实现,由于工艺和成本的因素,其应用范围受到了比较大的限制。

类脑计算

基于人脑的脉冲(spiking)模拟计算框架下的脉冲神经网络 (SNN)有望在实现人工智能的同时降低计算平台的能耗。

在SNN模型中上游神经脉冲Vi通过突触权重Wi调节,在给定时间内产生的合成电流 ∑iVi∗Wi等效于点积运算。从图例可以看出,脉冲计算通过电流的进出模拟神经元计算过程,整个系统基于事件驱动,深度学习网络计算又是高度稀疏的,所以通过脉冲通信和计算可以实现极低能耗下大规模并行计算。

未标题-1

脉冲计算示例图

从脉冲计算过程可以看到,脉冲计算的硬件结构需要存算一体的体系设计将神经元和突触阵列紧密放置在一起。所以当前的脉冲神经网络芯片基本都采用模拟存内计算的存算一体的架构设计。

技术挑战

存内计算虽然有很多的优势,但商业应用上还面临着诸多挑战,其在器件研发、电路设计、芯片架构、生成制造、EDA工具链以及软件算法等环节都还面临不少的问题需要解决和突破,整体技术成熟度较弱。

  1. 存算一体化需要同时满足存储和计算两者的设计需求,比如存储单元的可靠性、擦写次数、器件一致性等,计算单元的响应速度、功耗等。从当前半导体电路设计和制造工艺,要同时兼顾难度较大。

  2. 受限于工艺和芯片面积,当前商用存内计算的芯片算力较小,能支持的算力和算子有限,所以能力支持的神经网络算法也有限,通用性较差。

  3. 当前主流的模拟存内计算的计算精准度较差,计算结果不准确会导致实际计算结果与理想结果产生偏差。数字存内计算的虽然计算精准度高,但运算开销较大。

  4. 当前逻辑单元电路实现还是以基于二进制数字精准运算为主,模拟运算在理论和电路实现上相对缺乏,导致模拟计算的芯片实现难度较高。

  5. 存内计算芯片设计与常规芯片有较大差异,现有的EDA工具无法提供标准单元库以供芯片设计者使用,缺乏大规模存算阵列的快速开发工具导致产品化效率低。

郑重声明:文中仅代表作者观点,不代表本公司观点,本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或者删除,感谢您的关注!


热门资讯
电磁式电压互感器的工作原理和分类
电磁式电压互感器通常用于电力系统中,用于测量高电压输电线路上的电压。它们还可以用于监测电力系统中的电压波形和幅值,以便及时发现电力系统中的故障和问题。在本文中,我们将详细介绍电磁式电压互感器的工作原理和分类。
热继电器和热过载继电器区别
热继电器和热过载继电器都是常见的电气保护设备,但它们的工作原理和保护对象有所不同。在本篇文章中,我们将详细介绍热继电器和热过载继电器的区别。
钽电容器的种类和封装
钽电容器是一种电子元器件,使用钽金属作为电极材料。它们通常分为有极性和无极性两种类型,并且有多种不同的封装形式。在本文中,我们将详细讨论钽电容器的种类和封装。
热继电器和熔断器的区别
热继电器和熔断器都是常见的电器元件,它们在电路中都起到了保护作用。虽然它们都可以在电路中断开电路,但它们之间存在一些区别。在本篇文章中,我们将详细介绍热继电器和熔断器的区别。
FT2232开发板
采用FT2232芯片设计的开发板,将IO口完全引出,可在此基础上设计接口扩展板
AI高性能计算---寒武纪NPU
寒武纪是国内最早一批研究AI芯片公司,其AI芯片NPU (Neural network Processing Unit)的设计源于其早期一系列的AI芯片架构研究,主要包括DianNao、DaDianNao、PuDianNao、ShiDianNao、Cambricon-X等一系列研究成果。
AI高性能计算---Google TPU
自Google在2016年推出第一代自研人工智能芯片Tensor Processing Unit, TPU,经过数年发展已升级到了第4代 TPU v4 (截止到2022年底)。TPU架构设计也是通过高效地并行运算大量乘法和累加操作来实现深度学习卷积层,全连接层等网络层的高效计算。
AI高性能计算---AI芯片设计
AI芯片最简单直接设计思路就是将神经元直接映射到硬件芯片上,如图所示,全硬件实现方案(Full-Hardware Implementation)将每个神经元映射为一个逻辑计算单元,每个突触映射为一个数据存储单元,这种架构设计可以实现一个高性能且低功耗的AI芯片,比如Intel ETANN芯片。在全硬件实现方案中上一层输出数据和权重相乘,相乘的结果再相加,然后再经过一个激活函数输出到下一层计算。这种架构设计将计算和存储紧密的耦合在一起,使得芯片在进行高速计算的同时由能避免大规模的数据访存,在提高整体计算性能的同时也降低了功耗。
AI高性能计算---AI计算特性
AI计算特性设计和部署一款专用芯片需要平衡各种指标,不同的场景下关注的指标不一样,其芯片设计的思路也会存在差异,常见的芯片设计指标包括:功耗:芯片电路在工作时所消耗的能量。峰值性能:芯片每秒计算操作数...
AI高性能计算---AI专用芯片
当前人工智能(AI)计算主要是指以深度学习为代表的神经网络算法为主,传统的CPU、GPU都可以用来做AI算法的运算,但其并不是针对深度学习特性设计和优化的,所以在速度和性能上都无法完全适配AI算法特性,通常来说,AI芯片指的是针对人工智能算法特性做特殊设计的ASIC(专用芯片)。
用户信息:
电话号码
中国大陆+86
  • 中国大陆+86
  • 中国台湾+886
  • 中国香港+852
公司名称
邮箱
产品型号
产品数量
备注留言