ニューラルネットワークによる話者認識
音声スペクトルの概形の時間変化を入力として, 階層型のニューラルネットを用いた話者認識 (話者同定および話者照合) を行った.話者5人について, 1単語 (/tadaima/) を用いて入力の帯域分割数と区間分割数 (時分割) を変化させて, 認識率を求めた.話者同定では, 1inear4ch程度のごく簡単なスペクトル概形でも, 時間情報を入れることにより, 1-21週の時期差があるデータを完全に同定できた.話者照合については, 照合率94.1%と時期差の影響は吸収しきれなかった.また, 中間層のユニット数を変化させて, ネットワークの性能と, 中間層の内部表現について調べた.さらに, テキス...
Saved in:
Published in | テレビジョン学会誌 Vol. 44; no. 6; pp. 767 - 773 |
---|---|
Main Authors | , , , |
Format | Journal Article |
Language | Japanese |
Published |
一般社団法人 映像情報メディア学会
20.06.1990
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | 音声スペクトルの概形の時間変化を入力として, 階層型のニューラルネットを用いた話者認識 (話者同定および話者照合) を行った.話者5人について, 1単語 (/tadaima/) を用いて入力の帯域分割数と区間分割数 (時分割) を変化させて, 認識率を求めた.話者同定では, 1inear4ch程度のごく簡単なスペクトル概形でも, 時間情報を入れることにより, 1-21週の時期差があるデータを完全に同定できた.話者照合については, 照合率94.1%と時期差の影響は吸収しきれなかった.また, 中間層のユニット数を変化させて, ネットワークの性能と, 中間層の内部表現について調べた.さらに, テキストに依らない話者同定を試みた.時間情報を除き, 複数単語を用いて学習を行うことにより, 発声内容による影響を減らすことができ, 同定率91.3%を得た. |
---|---|
ISSN: | 0386-6831 1884-9652 |
DOI: | 10.3169/itej1978.44.767 |