AI高性能计算---AI专用芯片_学习_深圳奥米芯电子有限公司

当前人工智能(AI)计算主要是指以深度学习为代表的神经网络算法为主，传统的CPU、GPU都可以用来做AI算法的运算，但其并不是针对深度学习特性设计和优化的，所以在速度和性能上都无法完全适配AI算法特性，通常来说，AI芯片指的是针对人工智能算法特性做特殊设计的ASIC(专用芯片)。

当前深度学习算法在图像识别、语音识别、自然语言处理等领域都有非常广泛的应用，常见的深度学习网络包括CNN，RNN以及Transformer等，他们本质上都是大量矩阵或向量的乘法、加法的组合。比如主流的图像目标检测算法YOLO-V3，其主要由大量的卷积、残差、全连接等类型的计算组成，其本质是大量的乘法和加法操作。以运算神经网络算法为代表的AI专用芯片，需要硬件具有高效的线性代数运算能力，其特点为：单个任务简单、并行运算量大、数据读写操作量大，逻辑控制要求低等。所以其对芯片的并行运算、片上存储、高带宽、低延时等有更高的要求。

当前GPU是较为成熟的用于深度学习训练和推理的芯片之一，谷歌、微软和百度等公司都在使用GPU做深度学习相关的模型训练和推理计算。GPU提供了高效并行计算的能力，且核心数非常多，可以支撑大量数据的并行计算，NVIDIA还开发了专用加速库cuDNN和推理工具TensorRT以加速深度学习在GPU上计算效率。尽管GPU在深度学习中有非常广泛的应用，但由于GPU设计初衷并非专门针对深度学习，而是为图形计算设计的，因而其在性能和功耗等方面也存在一定的局限性：一是GPU注重的是低维数据结构，对深度学习的高维数据处理相对低效；二是图形计算需要较高的精度，而深度学习推理则可以在更低的精度下有效运行；三是GPU数据放在外部存储上，使用共享存储进行核心间通讯，这会造成带宽和延迟的瓶颈。ASIC则可以更有针对性地进行硬件设计和优化，所以为了获得更好的性能和功耗比，在深度学习算法稳定后，往往还需要采用全定制化人工智能芯片在性能、功耗和面积等指标上做进一步的优化。

郑重声明：文中仅代表作者观点，不代表本公司观点，本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或者删除，感谢您的关注！