多核数字信号处理器矩阵乘卷积算法性能评测
TN95; 矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择.针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor,DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv.该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能.实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现...
Saved in:
Published in | 国防科技大学学报 Vol. 45; no. 1; pp. 86 - 94 |
---|---|
Main Authors | , , , , , , |
Format | Journal Article |
Language | Chinese |
Published |
国防科技大学 计算机学院, 湖南 长沙 410073
01.02.2023
国防科技大学 并行与分布处理国防科技重点实验室, 湖南 长沙 410073%国防科技大学 计算机学院, 湖南 长沙 410073 |
Subjects | |
Online Access | Get full text |
ISSN | 1001-2486 |
DOI | 10.11887/j.cn.202301009 |
Cover
Summary: | TN95; 矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择.针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor,DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv.该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能.实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速. |
---|---|
ISSN: | 1001-2486 |
DOI: | 10.11887/j.cn.202301009 |