面向汉语建模的自适应词表生成算法
词表的质量直接影响汉语语言模型的性能,而当前汉语词典编撰工作同语言建模工作相脱离,一方面使得现有的汉语语言模型受词表规模所限,性能不能发挥到最优,另一方面因为缺乏专业领域的词表,难以建立面向特定领域的语言模型.本文旨在通过建立优化词表的方式来提高现有汉语语言模型的性能,并使其自动适应训练语料的领域.本文首先将词表自动生成工作同汉语语言建模工作相结合,构建一体化迭代算法框架,在自动生成优化词表的同时能够获得高性能的汉语语言模型.在该框架下,本文提出汉字构词强度的概念来描述汉语的词法信息,并将其作为词法特征与统计特征相结合,构造一种基于多特征的汉语词表自动生成算法.最后,本文提出两种启发式方法,自...
Saved in:
Published in | Zi dong hua xue bao Vol. 34; no. 1; pp. 40 - 47 |
---|---|
Main Author | |
Format | Journal Article |
Language | Chinese |
Published |
哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001
2008
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | 词表的质量直接影响汉语语言模型的性能,而当前汉语词典编撰工作同语言建模工作相脱离,一方面使得现有的汉语语言模型受词表规模所限,性能不能发挥到最优,另一方面因为缺乏专业领域的词表,难以建立面向特定领域的语言模型.本文旨在通过建立优化词表的方式来提高现有汉语语言模型的性能,并使其自动适应训练语料的领域.本文首先将词表自动生成工作同汉语语言建模工作相结合,构建一体化迭代算法框架,在自动生成优化词表的同时能够获得高性能的汉语语言模型.在该框架下,本文提出汉字构词强度的概念来描述汉语的词法信息,并将其作为词法特征与统计特征相结合,构造一种基于多特征的汉语词表自动生成算法.最后,本文提出两种启发式方法,自动根据训练语料的特点调整系统中的各项参数,使系统能够自动适应训练语料的领域.实验表明,本文的方法能够在生成高质量词表的同时获得高性能的语言模型,并且能够有效自动适应训练语料的领域. |
---|---|
Bibliography: | Chinese lexicon construction, language modeling, Chinese lexicon significance, self-adaptive 11-2109/TP TP391.12 |
ISSN: | 0254-4156 1874-1029 |
DOI: | 10.3724/SP.J.1004.2008.00040 |