一种高度并行的卷积神经网络加速器设计方法

【摘要】 为实现卷积神经网络数据的高度并行传输与计算,生成高效的硬件加速器设计方案,提出了一种基于数据对齐并行处理、多卷积核并行计算的硬件架构设计和探索方法.该方法首先根据输入图像尺寸对数据进行对齐预处理,实现数据层面的高度并行传输与计算,以提高加速器的数据传输和计算速度,并适应多种尺寸的输入图像;采用多卷积核并行计算方法,使不同的卷积核可同时对输入图片进行卷积,以实现卷积核层面的并行计算;基于该方法建立硬件资源与性能的数学模型,通过数值求解,获得性能与资源协同优化的高效卷积神经网络硬件架构方案.实验结果表明:所提出的方法,在XilinxZynq)模型在175MHz的时钟频率下,吞吐量XC7Z045上实现的基于16位定点数的SSD网络()和图形处理器可以达到44.59帧/s(,更适用于GPU低功耗嵌入式应用场合.