当前人工智能(AI)计算主要是指以深度学习为代表的神经网络算法为主,传统的CPU、GPU都可以用来做AI算法的运算,但其并不是针对深度学习特性设计和优化的,所以在速度和性能上都无法完全适配AI算法特性,通常来说,AI芯片指的是针对人工智能算法特性做特殊设计的ASIC(专用芯片)。
当前深度学习算法在图像识别、语音识别、自然语言处理等领域都有非常广泛的应用,常见的深度学习网络包括CNN,RNN以及Transformer等,他们本质上都是大量矩阵或向量的乘法、加法的组合。比如主流的图像目标检测算法YOLO-V3,其主要由大量的卷积、残差、全连接等类型的计算组成,其本质是大量的乘法和加法操作。以运算神经网络算法为代表的AI专用芯片,需要硬件具有高效的线性代数运算能力,其特点为:单个任务简单、并行运算量大、数据读写操作量大,逻辑控制要求低等。所以其对芯片的并行运算、片上存储、高带宽、低延时等有更高的要求。
当前GPU是较为成熟的用于深度学习训练和推理的芯片之一,谷歌、 微软和百度等公司都在使用GPU做深度学习相关的模型训练和推理计算。GPU提供了高效并行计算的能力,且核心数非常多,可以支撑大量数据的并行计算,NVIDIA还开发了专用加速库cuDNN和推理工具TensorRT以加速深度学习在GPU上计算效率。尽管GPU在深度学习中有非常广泛的应用,但由于GPU设计初衷并非专门针对深度学习,而是为图形计算设计的,因而其在性能和功耗等方面也存在一定的局限性:一是GPU注重的是低维数据结构,对深度学习的高维数据处理相对低效;二是图形计算需要较高的精度,而深度学习推理则可以在更低的精度下有效运行;三是GPU数据放在外部存储上,使用共享存储进行核心间通讯,这会造成带宽和延迟的瓶颈。ASIC则可以更有针对性地进行硬件设计和优化,所以为了获得更好的性能和功耗比,在深度学习算法稳定后,往往还需要采用全定制化人工智能芯片在性能、功耗和面积等指标上做进一步的优化。
郑重声明:文中仅代表作者观点,不代表本公司观点,本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或者删除,感谢您的关注!