基于耳蜗图多示例分析的音频场景分类模型

TP391; 音频场景分类(Acoustic Scene Classification, ASC)是计算听觉场景领域最具挑战的任务之一.传统的ASC模型大多采用基于线性频率分析的手工特征加基于深度学习的分类模型方法.然而,一方面,由于基于线性频率分析的特征提取方法无法模拟人耳基底膜的非线性频率选择特性,从而造成特征分辨率低下的问题;另一方面,现有的分类模型无法解决由于音源复杂且音频事件高度重叠所造成的分类准确率低下的问题.为了解决以上问题,提出了基于耳蜗图多示例分析的音频场景分类模型,一方面采用中心频率按照等效带宽均匀分布的余弦滤波器组对信号频谱进行滤波以模拟人耳听觉感知特性;另一方面,通过引...

Full description

Saved in:
Bibliographic Details
Published in华东理工大学学报(自然科学版) Vol. 48; no. 1; pp. 99 - 104
Main Authors 林巧颖, 陈宁
Format Journal Article
LanguageChinese
Published 华东理工大学信息科学与工程学院,上海 200237 28.02.2022
Subjects
Online AccessGet full text
ISSN1006-3080
DOI10.14135/j.cnki.1006-3080.20201124001

Cover

Loading…
More Information
Summary:TP391; 音频场景分类(Acoustic Scene Classification, ASC)是计算听觉场景领域最具挑战的任务之一.传统的ASC模型大多采用基于线性频率分析的手工特征加基于深度学习的分类模型方法.然而,一方面,由于基于线性频率分析的特征提取方法无法模拟人耳基底膜的非线性频率选择特性,从而造成特征分辨率低下的问题;另一方面,现有的分类模型无法解决由于音源复杂且音频事件高度重叠所造成的分类准确率低下的问题.为了解决以上问题,提出了基于耳蜗图多示例分析的音频场景分类模型,一方面采用中心频率按照等效带宽均匀分布的余弦滤波器组对信号频谱进行滤波以模拟人耳听觉感知特性;另一方面,通过引入多示例学习刻画整个数据结构的特点以提高分类准确率.此外,为了抵抗音频事件的频移影响,在多示例学习分类模型的分类预测整合器中采用平均池化方法.在DCASE 2018和DCASE 2019竞赛所提供的Task1a数据集上的实验结果表明,本文提出的模型比DCASE 2018竞赛所提供的基线系统以及传统的基于Log Mel特征提取和多示例学习的模型实现了更高的分类准确率,同时也验证了平均池化要优于最大池化.
ISSN:1006-3080
DOI:10.14135/j.cnki.1006-3080.20201124001