LEARNING DEVICE FOR ACOUSTIC MODEL AND COMPUTER PROGRAM FOR SAME

[Problem] To provide a learning device for an acoustic model wherein speech recognition accuracy can be increased in an acoustic model making use of the characteristics of a neural network (NN). [Solution] A learning device 350 includes: a learning processing unit 362 for optimizing a connectionist...

Full description

Saved in:

Bibliographic Details
Main Author	KANDA, Naoyuki
Format	Patent
Language	English French Japanese
Published	12.04.2018
Subjects	ACOUSTICS MUSICAL INSTRUMENTS PHYSICS SPEECH ANALYSIS OR SYNTHESIS SPEECH OR AUDIO CODING OR DECODING SPEECH OR VOICE PROCESSING SPEECH RECOGNITION
Online Access	Get full text

Cover

Loading…

More Information
Summary:	[Problem] To provide a learning device for an acoustic model wherein speech recognition accuracy can be increased in an acoustic model making use of the characteristics of a neural network (NN). [Solution] A learning device 350 includes: a learning processing unit 362 for optimizing a connectionist temporal classification acoustic model (CTC-AM) 364 such that the sum across all learning data for posterior probability of correct subword sequences for learning data is maximized when an observation sequence in learning data stored in a learning data storage unit 360 is presented; and an MBR learning processing unit 366, an accuracy evaluation unit 374 and a learning/evaluation control unit 378 for further optimizing the CTC-AM 364 such that expected values for evaluation values representing the accuracy of word sequence hypotheses estimated using the CTC-AM 364 and language models 368, 370 is maximized when an observation sequence of data for evaluation that is stored in an evaluation data storage unit 376 is presented. [Problème] Fournir un dispositif d'apprentissage pour un modèle acoustique dans lequel la précision de reconnaissance de la parole peut être augmentée dans un modèle acoustique utilisant les caractéristiques d'un réseau neuronal (NN). [Solution] La présente invention concerne un dispositif d'apprentissage 350 qui comprend : une unité de traitement d'apprentissage 362 pour optimiser un modèle acoustique de classification temporelle connexionniste (CTC-AM) 364 de sorte que la somme sur toutes les données d'apprentissage pour la probabilité a posteriori de séquences de sous-mots correctes pour les données d'apprentissage soit maximisée lorsqu'une séquence d'observation dans des données d'apprentissage stockées dans une unité de stockage de données d'apprentissage 360 est présentée ; et une unité de traitement d'apprentissage MBR 366, une unité d'évaluation d'exactitude 374 et une unité de commande d'apprentissage/évaluation 378 pour optimiser plus avant le CTC-AM 364 de sorte que les valeurs attendues pour les valeurs d'évaluation représentant l'exactitude d'hypothèses de séquence de mots estimées au moyen de la CTC-AM 364 et des modèles de langage 368, 370 soient maximisées lorsqu'une séquence d'observation de données pour évaluation qui est stockée dans une unité de stockage de données d'évaluation 376 est présentée. 【課題】ニューラルネットワーク(NN)の特性を活かした音響モデルにおいて、音声認識精度を高めることができる音響モデルの学習装置を提供する。【解決手段】学習装置３５０は、学習データ記憶部３６０に記憶された学習データ内の観測系列が与えられたときの、学習データの正解サブワード列の事後確率の、学習データ全体に亘る和が最大となるように、NNによるConnectionist Temporal Classification音響モデル（CTC-AM）３６４を最適化する学習処理部３６２と、評価データ記憶部３７６に記憶された評価用データの観測系列が与えられたときに、CTC-AM３６４と言語モデル３６８、３７０とを用いて推定した単語列の仮説の精度を表す評価値の期待値が最大となるように、CTC-AM３６４をさらに最適化するＭＢＲ学習処理部３６６、精度評価部３７４及び学習・評価制御部３７８を含む。
Bibliography:	Application Number: WO2017JP35018