多核数字信号处理器矩阵乘卷积算法性能评测

TN95; 矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择.针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor,DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv.该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能.实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现...

Full description

Saved in:
Bibliographic Details
Published in国防科技大学学报 Vol. 45; no. 1; pp. 86 - 94
Main Authors 王庆林, 裴向东, 廖林玉, 王浩旭, 李荣春, 梅松竹, 李东升
Format Journal Article
LanguageChinese
Published 国防科技大学 计算机学院, 湖南 长沙 410073 01.02.2023
国防科技大学 并行与分布处理国防科技重点实验室, 湖南 长沙 410073%国防科技大学 计算机学院, 湖南 长沙 410073
Subjects
Online AccessGet full text
ISSN1001-2486
DOI10.11887/j.cn.202301009

Cover

More Information
Summary:TN95; 矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择.针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor,DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv.该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能.实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速.
ISSN:1001-2486
DOI:10.11887/j.cn.202301009