面向ARMv864位多核处理器QTRSM的实现

TP301; 在ARMy8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM).基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加减法、乘法和除法.以longdouble数据类型QTRSM为测试基准,就不同矩阵规模下测试结果精度和时间与double-double数据格式QTRSM进行比较.实验结果表明:两者得到近似相同精度的数值结果,但double-double数据格式QTRSM的性能是long double数据类型QTRSM的1.6...

Full description

Saved in:
Bibliographic Details
Published in计算机工程与科学 Vol. 39; no. 3; pp. 451 - 457
Main Authors 杜琦, 姜浩, 李宽, 彭林, 杨灿群
Format Journal Article
LanguageChinese
Published 国防科学技术大学计算机学院,湖南长沙,410073 2017
Subjects
Online AccessGet full text
ISSN1007-130X
DOI10.3969/j.issn.1007-130X.2017.03.007

Cover

Loading…
More Information
Summary:TP301; 在ARMy8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM).基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加减法、乘法和除法.以longdouble数据类型QTRSM为测试基准,就不同矩阵规模下测试结果精度和时间与double-double数据格式QTRSM进行比较.实验结果表明:两者得到近似相同精度的数值结果,但double-double数据格式QTRSM的性能是long double数据类型QTRSM的1.6倍.随着线程数的增加,两种QTRSM实现的加速比接近2.0,具有较好的可扩展性.
ISSN:1007-130X
DOI:10.3969/j.issn.1007-130X.2017.03.007