著者識別における核文節関連情報を用いた文体特徴量の提案
日本語文章を対象とした著者識別に関しては,これ迄提案されてきた特徴量の殆どが文字や単語など文を構成する言語単位に基づいている.文そのものの構造を意識して特徴量化したものが少なく,その実用性も比較的低いと報告されている.本研究では,依存構造にしたがって,文節単位に分解された文をツリー状に展開してから,根に位置する文節とそれと直接につながっている文節を核文節と定義して,それらの分節から抽出したパターンを新しい特徴量NBS(Nucleus Bunsetsu)として提案する.提案の有効性を実証するため,10人の小説家の作品を用いてコーパスを構築し,2群判別と10群判別のシミュレーションを行った.その結...
Saved in:
Published in | データ分析の理論と応用 Vol. 12; no. 1; pp. 33 - 46 |
---|---|
Main Authors | , |
Format | Journal Article |
Language | Japanese |
Published |
日本分類学会
01.09.2023
|
Subjects | |
Online Access | Get full text |
ISSN | 2186-4195 2434-3382 |
DOI | 10.32146/bdajcs.12.33 |
Cover
Summary: | 日本語文章を対象とした著者識別に関しては,これ迄提案されてきた特徴量の殆どが文字や単語など文を構成する言語単位に基づいている.文そのものの構造を意識して特徴量化したものが少なく,その実用性も比較的低いと報告されている.本研究では,依存構造にしたがって,文節単位に分解された文をツリー状に展開してから,根に位置する文節とそれと直接につながっている文節を核文節と定義して,それらの分節から抽出したパターンを新しい特徴量NBS(Nucleus Bunsetsu)として提案する.提案の有効性を実証するため,10人の小説家の作品を用いてコーパスを構築し,2群判別と10群判別のシミュレーションを行った.その結果,2群判別の場合,NBSのパフォーマンスが比較対象である文節パターンB型に肉薄し,10群判別では,正解率において2ポイントの差をつけて優位性が示された.両者を結合して用いれば,より優れたパフォーマンスが達成されたことから,文の構造にも著者の特徴が顕著に現れていると結論づけた. |
---|---|
ISSN: | 2186-4195 2434-3382 |
DOI: | 10.32146/bdajcs.12.33 |