多核数字信号处理器矩阵乘卷积算法性能评测

TN95; 矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择.针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor,DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv.该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能.实验结果表明,ftmEConv实现了高达42.90％的计算效率,与芯片上的其他矩阵乘卷积算法实现...

Full description

Saved in:

Bibliographic Details
Published in	国防科技大学学报 Vol. 45; no. 1; pp. 86 - 94
Main Authors	王庆林, 裴向东, 廖林玉, 王浩旭, 李荣春, 梅松竹, 李东升
Format	Journal Article
Language	Chinese
Published	国防科技大学计算机学院, 湖南长沙 410073 01.02.2023 国防科技大学并行与分布处理国防科技重点实验室, 湖南长沙 410073%国防科技大学计算机学院, 湖南长沙 410073
Subjects	多核数字信号处理器卷积神经网络卷积算法算法优化
Online Access	Get full text
ISSN	1001-2486
DOI	10.11887/j.cn.202301009

Cover

More Information
Summary:	TN95; 矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择.针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor,DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv.该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能.实验结果表明,ftmEConv实现了高达42.90％的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速.
ISSN:	1001-2486
DOI:	10.11887/j.cn.202301009