Hi,欢迎
86-755-88844016 +852 2632 9637 6*12小时在线电话
AI高性能计算---AI专用芯片
2023-08-22

当前人工智能(AI)计算主要是指以深度学习为代表的神经网络算法为主,传统的CPU、GPU都可以用来做AI算法的运算,但其并不是针对深度学习特性设计和优化的,所以在速度和性能上都无法完全适配AI算法特性,通常来说,AI芯片指的是针对人工智能算法特性做特殊设计的ASIC(专用芯片)。

当前深度学习算法在图像识别、语音识别、自然语言处理等领域都有非常广泛的应用,常见的深度学习网络包括CNN,RNN以及Transformer等,他们本质上都是大量矩阵或向量的乘法、加法的组合。比如主流的图像目标检测算法YOLO-V3,其主要由大量的卷积、残差、全连接等类型的计算组成,其本质是大量的乘法和加法操作。以运算神经网络算法为代表的AI专用芯片,需要硬件具有高效的线性代数运算能力,其特点为:单个任务简单、并行运算量大、数据读写操作量大,逻辑控制要求低等。所以其对芯片的并行运算、片上存储、高带宽、低延时等有更高的要求。

当前GPU是较为成熟的用于深度学习训练和推理的芯片之一,谷歌、 微软和百度等公司都在使用GPU做深度学习相关的模型训练和推理计算。GPU提供了高效并行计算的能力,且核心数非常多,可以支撑大量数据的并行计算,NVIDIA还开发了专用加速库cuDNN和推理工具TensorRT以加速深度学习在GPU上计算效率。尽管GPU在深度学习中有非常广泛的应用,但由于GPU设计初衷并非专门针对深度学习,而是为图形计算设计的,因而其在性能和功耗等方面也存在一定的局限性:一是GPU注重的是低维数据结构,对深度学习的高维数据处理相对低效;二是图形计算需要较高的精度,而深度学习推理则可以在更低的精度下有效运行;三是GPU数据放在外部存储上,使用共享存储进行核心间通讯,这会造成带宽和延迟的瓶颈。ASIC则可以更有针对性地进行硬件设计和优化,所以为了获得更好的性能和功耗比,在深度学习算法稳定后,往往还需要采用全定制化人工智能芯片在性能、功耗和面积等指标上做进一步的优化。

郑重声明:文中仅代表作者观点,不代表本公司观点,本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或者删除,感谢您的关注!

热门资讯
LG Innotek
Brand: LG Innotekbrand introductionLG Innotek is a global component manufacturing company. - The c...
Lighting Science
Brand: Lighting Sciencebrand introductionLighting Science Group Corporation is the market leader i...
电磁式电压互感器的工作原理和分类
电磁式电压互感器通常用于电力系统中,用于测量高电压输电线路上的电压。它们还可以用于监测电力系统中的电压波形和幅值,以便及时发现电力系统中的故障和问题。在本文中,我们将详细介绍电磁式电压互感器的工作原理和分类。
热继电器和热过载继电器区别
热继电器和热过载继电器都是常见的电气保护设备,但它们的工作原理和保护对象有所不同。在本篇文章中,我们将详细介绍热继电器和热过载继电器的区别。
钽电容器的种类和封装
钽电容器是一种电子元器件,使用钽金属作为电极材料。它们通常分为有极性和无极性两种类型,并且有多种不同的封装形式。在本文中,我们将详细讨论钽电容器的种类和封装。
热继电器和熔断器的区别
热继电器和熔断器都是常见的电器元件,它们在电路中都起到了保护作用。虽然它们都可以在电路中断开电路,但它们之间存在一些区别。在本篇文章中,我们将详细介绍热继电器和熔断器的区别。
FT2232开发板
采用FT2232芯片设计的开发板,将IO口完全引出,可在此基础上设计接口扩展板
AI高性能计算---存算一体
存算一体或存内计算是将存储与计算完全融合,直接利用存储器进行数据处理或计算。在传统的冯诺依曼架构下,数据的存储和计算是分开的,由于存储和计算的性能存在加大的差距,处理器访问存储数据的速率远远小于处理器计算速率,数据在内存与主存之间搬运的过程其能耗也远远高于处理器的计算所消耗的能量。
AI高性能计算---寒武纪NPU
寒武纪是国内最早一批研究AI芯片公司,其AI芯片NPU (Neural network Processing Unit)的设计源于其早期一系列的AI芯片架构研究,主要包括DianNao、DaDianNao、PuDianNao、ShiDianNao、Cambricon-X等一系列研究成果。
AI高性能计算---Google TPU
自Google在2016年推出第一代自研人工智能芯片Tensor Processing Unit, TPU,经过数年发展已升级到了第4代 TPU v4 (截止到2022年底)。TPU架构设计也是通过高效地并行运算大量乘法和累加操作来实现深度学习卷积层,全连接层等网络层的高效计算。
用户信息:
电话号码
中国大陆+86
  • 中国大陆+86
  • 中国台湾+886
  • 中国香港+852
公司名称
邮箱
产品型号
产品数量
备注留言