面向湍流大数据的高效存储与访问关键技术研究

随着测量技术和数值模拟技术的发展,数据驱动的湍流研究成为该领域的新研究方法。我国已建立了多个风洞实验室和多个超算中心来模拟湍流,这些研究积累了大量的湍流数据,但是国内没有集中的湍流数据管理平台,耗资巨大的实验和仿真数据难以实现交流和共享。湍流数据具有数据量大、维度高、精度高和多源异构等特点,其存储、访问与管理存在数据集成困难、数据访问低效和存储效率低等问题。设计了一个面向航空、航天和航海典型流动问题的湍流大数据分布式存储系统TDFS。结合湍流大数据的访问特点,在TDFS中设计了新的元数据组织方式和数据访问接口。实验结果表明,与HDFS和GlusterFS相比,TDFS分别实现了54.38%和5...

Full description

Saved in:
Bibliographic Details
Published in大数据 Vol. 10; no. 4; pp. 3 - 20
Main Authors 程文迪, 张晓, 潘兆辉, 赵友军, 孙晨光, 单学强, 金雨展, 赵晓南
Format Journal Article
LanguageChinese
Published 人民邮电出版社有限公司 15.07.2024
西北工业大学计算机学院,陕西 西安 710129%西北工业大学软件学院,陕西 西安 710129
China InfoCom Media Group
Subjects
Online AccessGet full text
ISSN2096-0271
DOI10.11959/j.issn.2096-0271.2024046

Cover

More Information
Summary:随着测量技术和数值模拟技术的发展,数据驱动的湍流研究成为该领域的新研究方法。我国已建立了多个风洞实验室和多个超算中心来模拟湍流,这些研究积累了大量的湍流数据,但是国内没有集中的湍流数据管理平台,耗资巨大的实验和仿真数据难以实现交流和共享。湍流数据具有数据量大、维度高、精度高和多源异构等特点,其存储、访问与管理存在数据集成困难、数据访问低效和存储效率低等问题。设计了一个面向航空、航天和航海典型流动问题的湍流大数据分布式存储系统TDFS。结合湍流大数据的访问特点,在TDFS中设计了新的元数据组织方式和数据访问接口。实验结果表明,与HDFS和GlusterFS相比,TDFS分别实现了54.38%和57.7%的接口响应速度提升。同时,为了降低湍流大数据的存储开销,设计了基于HDF5的副本延迟压缩机制,相比原有的副本存储方式,节省了34%的存储空间。
ISSN:2096-0271
DOI:10.11959/j.issn.2096-0271.2024046