ニューラルネットワークによる話者認識

音声スペクトルの概形の時間変化を入力として, 階層型のニューラルネットを用いた話者認識 (話者同定および話者照合) を行った.話者5人について, 1単語 (/tadaima/) を用いて入力の帯域分割数と区間分割数 (時分割) を変化させて, 認識率を求めた.話者同定では, 1inear4ch程度のごく簡単なスペクトル概形でも, 時間情報を入れることにより, 1-21週の時期差があるデータを完全に同定できた.話者照合については, 照合率94.1%と時期差の影響は吸収しきれなかった.また, 中間層のユニット数を変化させて, ネットワークの性能と, 中間層の内部表現について調べた.さらに, テキス...

Full description

Saved in:
Bibliographic Details
Published inテレビジョン学会誌 Vol. 44; no. 6; pp. 767 - 773
Main Authors 麻生, 英樹, 西村, 新吾, 海野, 雅幸, 小池, 恒彦
Format Journal Article
LanguageJapanese
Published 一般社団法人 映像情報メディア学会 20.06.1990
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:音声スペクトルの概形の時間変化を入力として, 階層型のニューラルネットを用いた話者認識 (話者同定および話者照合) を行った.話者5人について, 1単語 (/tadaima/) を用いて入力の帯域分割数と区間分割数 (時分割) を変化させて, 認識率を求めた.話者同定では, 1inear4ch程度のごく簡単なスペクトル概形でも, 時間情報を入れることにより, 1-21週の時期差があるデータを完全に同定できた.話者照合については, 照合率94.1%と時期差の影響は吸収しきれなかった.また, 中間層のユニット数を変化させて, ネットワークの性能と, 中間層の内部表現について調べた.さらに, テキストに依らない話者同定を試みた.時間情報を除き, 複数単語を用いて学習を行うことにより, 発声内容による影響を減らすことができ, 同定率91.3%を得た.
ISSN:0386-6831
1884-9652
DOI:10.3169/itej1978.44.767