ニューラルネットワークによる話者認識

音声スペクトルの概形の時間変化を入力として, 階層型のニューラルネットを用いた話者認識 (話者同定および話者照合) を行った.話者5人について, 1単語 (/tadaima/) を用いて入力の帯域分割数と区間分割数 (時分割) を変化させて, 認識率を求めた.話者同定では, 1inear4ch程度のごく簡単なスペクトル概形でも, 時間情報を入れることにより, 1-21週の時期差があるデータを完全に同定できた.話者照合については, 照合率94.1%と時期差の影響は吸収しきれなかった.また, 中間層のユニット数を変化させて, ネットワークの性能と, 中間層の内部表現について調べた.さらに, テキス...

Full description

Saved in:

Bibliographic Details
Published in	テレビジョン学会誌 Vol. 44; no. 6; pp. 767 - 773
Main Authors	麻生, 英樹, 西村, 新吾, 海野, 雅幸, 小池, 恒彦
Format	Journal Article
Language	Japanese
Published	一般社団法人映像情報メディア学会 20.06.1990
Subjects	ニューラルネットワークバックプロパゲーション時期的変動話者同定話者照合
Online Access	Get full text

Cover

Loading…

More Information
Summary:	音声スペクトルの概形の時間変化を入力として, 階層型のニューラルネットを用いた話者認識 (話者同定および話者照合) を行った.話者5人について, 1単語 (/tadaima/) を用いて入力の帯域分割数と区間分割数 (時分割) を変化させて, 認識率を求めた.話者同定では, 1inear4ch程度のごく簡単なスペクトル概形でも, 時間情報を入れることにより, 1-21週の時期差があるデータを完全に同定できた.話者照合については, 照合率94.1%と時期差の影響は吸収しきれなかった.また, 中間層のユニット数を変化させて, ネットワークの性能と, 中間層の内部表現について調べた.さらに, テキストに依らない話者同定を試みた.時間情報を除き, 複数単語を用いて学習を行うことにより, 発声内容による影響を減らすことができ, 同定率91.3%を得た.
ISSN:	0386-6831 1884-9652
DOI:	10.3169/itej1978.44.767