Transformer在语音识别任务中的研究现状与展望

TP18%TN912.34; Transformer作为一种新的深度学习算法框架,得到了越来越多研究人员的关注,成为目前的研究热点.Transformer模型中的自注意力机制受人类只关注于重要事物的启发,只对输入序列中重要的信息进行学习.对于语音识别任务来说,重点是把输入语音序列的信息转录为对应的语言文本.过去的做法是将声学模型、发音词典和语言模型组成语音识别系统来实现语音识别任务,而Transformer可以将声学、发音和语言模型集成到单个神经网络中形成端到端语音识别系统,解决了传统语音识别系统的强制对齐和多模块训练等问题.因此,探讨Transformer在语音识别任务中存在的问题是非常有必...

Full description

Saved in:
Bibliographic Details
Published in计算机科学与探索 Vol. 15; no. 9; pp. 1578 - 1594
Main Authors 张晓旭, 马志强, 刘志强, 朱方圆, 王春喻
Format Journal Article
LanguageChinese
Published 内蒙古工业大学 数据科学与应用学院,呼和浩特 010080%内蒙古工业大学 数据科学与应用学院,呼和浩特 010080 01.09.2021
内蒙古自治区基于大数据的软件服务工程技术研究中心,呼和浩特 010080
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:TP18%TN912.34; Transformer作为一种新的深度学习算法框架,得到了越来越多研究人员的关注,成为目前的研究热点.Transformer模型中的自注意力机制受人类只关注于重要事物的启发,只对输入序列中重要的信息进行学习.对于语音识别任务来说,重点是把输入语音序列的信息转录为对应的语言文本.过去的做法是将声学模型、发音词典和语言模型组成语音识别系统来实现语音识别任务,而Transformer可以将声学、发音和语言模型集成到单个神经网络中形成端到端语音识别系统,解决了传统语音识别系统的强制对齐和多模块训练等问题.因此,探讨Transformer在语音识别任务中存在的问题是非常有必要的.首先介绍Transformer的模型结构,并且从输入语音序列、深层模型结构和模型推理过程三方面对语音识别任务面临的问题进行分析;其次对现阶段解决语音识别中Transformer模型存在输入语音序列、深层模型结构和模型推理过程的问题进行方法总结和简要概述;最后对Transformer在语音识别任务中的应用方向进行总结和展望.
ISSN:1673-9418
DOI:10.3778/j.issn.1673-9418.2103020