基于Kernel-XGBoost的跨语言术语对齐方法
G202%TP391.1; 跨语言术语对齐是跨语言文本数据分析与知识发现的关键基础.针对跨语言术语对齐研究多为单词术语对齐且严重依赖向量空间对齐的现状,提出一种能够实现跨语言单词及多词术语间一对多对齐的Kernel-XGBoost方法.给定跨语言平行语料库,该方法分两步得到同义的跨语言术语对:1)跨语言术语提取与候选术语对生成;2)基于跨语言词嵌入的术语对齐.汉语-西班牙语以及汉语-法语的术语对齐实验表明,该方法在Top-5的准确率可达到80%,能有效支持跨语言信息检索、本体构建等跨语言文本数据挖掘任务....
Saved in:
Published in | 计算机科学 Vol. 49; no. z2; pp. 114 - 119 |
---|---|
Main Authors | , |
Format | Journal Article |
Language | Chinese |
Published |
福州大学经济与管理学院 福州 350108
2022
|
Subjects | |
Online Access | Get full text |
ISSN | 1002-137X |
DOI | 10.11896/jsjkx.211000111 |
Cover
Summary: | G202%TP391.1; 跨语言术语对齐是跨语言文本数据分析与知识发现的关键基础.针对跨语言术语对齐研究多为单词术语对齐且严重依赖向量空间对齐的现状,提出一种能够实现跨语言单词及多词术语间一对多对齐的Kernel-XGBoost方法.给定跨语言平行语料库,该方法分两步得到同义的跨语言术语对:1)跨语言术语提取与候选术语对生成;2)基于跨语言词嵌入的术语对齐.汉语-西班牙语以及汉语-法语的术语对齐实验表明,该方法在Top-5的准确率可达到80%,能有效支持跨语言信息检索、本体构建等跨语言文本数据挖掘任务. |
---|---|
ISSN: | 1002-137X |
DOI: | 10.11896/jsjkx.211000111 |