基于神经网络的声场景数据声谱图提取方法

TN929.53; 在复杂环境声场景识别任务中,梅尔频谱作为输入的深度卷积神经网络有良好的识别能力,然而梅尔滤波器组依据人耳生理特征设计,对于声场景识别并非最优滤波器组.针对此问题提出声谱图提取神经网络取代传统梅尔频谱提取过程,通过训练该网络使声谱图自动适应声场景数据集.声谱图提取神经网络连接Res-Net50作为声场景识别架构,在DCASE2019声场景数据集上进行训练与测试,实验结果表明该架构比传统模型有更高的识别率,能够有效调整频率曲线、滤波器幅值以及滤波器形状....

Full description

Saved in:
Bibliographic Details
Published in系统工程与电子技术 Vol. 43; no. 12; pp. 3462 - 3469
Main Authors 韦娟, 丁智恺, 宁方立
Format Journal Article
LanguageChinese
Published 西安电子科技大学通信工程学院,陕西西安710071%西北工业大学机电学院,陕西西安710072 01.12.2021
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:TN929.53; 在复杂环境声场景识别任务中,梅尔频谱作为输入的深度卷积神经网络有良好的识别能力,然而梅尔滤波器组依据人耳生理特征设计,对于声场景识别并非最优滤波器组.针对此问题提出声谱图提取神经网络取代传统梅尔频谱提取过程,通过训练该网络使声谱图自动适应声场景数据集.声谱图提取神经网络连接Res-Net50作为声场景识别架构,在DCASE2019声场景数据集上进行训练与测试,实验结果表明该架构比传统模型有更高的识别率,能够有效调整频率曲线、滤波器幅值以及滤波器形状.
ISSN:1001-506X
DOI:10.12305/j.issn.1001-506X.2021.12.06