面向ARMv864位多核处理器QTRSM的实现
TP301; 在ARMy8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM).基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加减法、乘法和除法.以longdouble数据类型QTRSM为测试基准,就不同矩阵规模下测试结果精度和时间与double-double数据格式QTRSM进行比较.实验结果表明:两者得到近似相同精度的数值结果,但double-double数据格式QTRSM的性能是long double数据类型QTRSM的1.6...
Saved in:
Published in | 计算机工程与科学 Vol. 39; no. 3; pp. 451 - 457 |
---|---|
Main Authors | , , , , |
Format | Journal Article |
Language | Chinese |
Published |
国防科学技术大学计算机学院,湖南长沙,410073
2017
|
Subjects | |
Online Access | Get full text |
ISSN | 1007-130X |
DOI | 10.3969/j.issn.1007-130X.2017.03.007 |
Cover
Loading…
Summary: | TP301; 在ARMy8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM).基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加减法、乘法和除法.以longdouble数据类型QTRSM为测试基准,就不同矩阵规模下测试结果精度和时间与double-double数据格式QTRSM进行比较.实验结果表明:两者得到近似相同精度的数值结果,但double-double数据格式QTRSM的性能是long double数据类型QTRSM的1.6倍.随着线程数的增加,两种QTRSM实现的加速比接近2.0,具有较好的可扩展性. |
---|---|
ISSN: | 1007-130X |
DOI: | 10.3969/j.issn.1007-130X.2017.03.007 |