面向汉语建模的自适应词表生成算法

词表的质量直接影响汉语语言模型的性能，而当前汉语词典编撰工作同语言建模工作相脱离，一方面使得现有的汉语语言模型受词表规模所限，性能不能发挥到最优，另一方面因为缺乏专业领域的词表，难以建立面向特定领域的语言模型．本文旨在通过建立优化词表的方式来提高现有汉语语言模型的性能，并使其自动适应训练语料的领域．本文首先将词表自动生成工作同汉语语言建模工作相结合，构建一体化迭代算法框架，在自动生成优化词表的同时能够获得高性能的汉语语言模型．在该框架下，本文提出汉字构词强度的概念来描述汉语的词法信息，并将其作为词法特征与统计特征相结合，构造一种基于多特征的汉语词表自动生成算法．最后，本文提出两种启发式方法，自...

Full description

Saved in:

Bibliographic Details
Published in	Zi dong hua xue bao Vol. 34; no. 1; pp. 40 - 47
Main Author	肖镜辉刘秉权王晓龙
Format	Journal Article
Language	Chinese
Published	哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001 2008
Subjects	汉字构词强度自适应词表自动生成语言建模词表自动生成汉字构词强度自适应语言建模
Online Access	Get full text

Cover

Loading…

More Information
Summary:	词表的质量直接影响汉语语言模型的性能，而当前汉语词典编撰工作同语言建模工作相脱离，一方面使得现有的汉语语言模型受词表规模所限，性能不能发挥到最优，另一方面因为缺乏专业领域的词表，难以建立面向特定领域的语言模型．本文旨在通过建立优化词表的方式来提高现有汉语语言模型的性能，并使其自动适应训练语料的领域．本文首先将词表自动生成工作同汉语语言建模工作相结合，构建一体化迭代算法框架，在自动生成优化词表的同时能够获得高性能的汉语语言模型．在该框架下，本文提出汉字构词强度的概念来描述汉语的词法信息，并将其作为词法特征与统计特征相结合，构造一种基于多特征的汉语词表自动生成算法．最后，本文提出两种启发式方法，自动根据训练语料的特点调整系统中的各项参数，使系统能够自动适应训练语料的领域．实验表明，本文的方法能够在生成高质量词表的同时获得高性能的语言模型，并且能够有效自动适应训练语料的领域．
Bibliography:	Chinese lexicon construction, language modeling, Chinese lexicon significance, self-adaptive 11-2109/TP TP391.12
ISSN:	0254-4156 1874-1029
DOI:	10.3724/SP.J.1004.2008.00040