SYSTEMS AND METHODS FOR SPELL CORRECTION OF NON-ROMAN CHARACTERS AND WORDS
Systems and methods to process and correct spelling errors for non-Roman based words such as in Chinese, Japanese, and Korean languages using a rule-based classifier and a hidden Markov model are disclosed. The method generally includes converting an input entry in a first language such as Chinese t...
Saved in:
Main Authors | , , , , |
---|---|
Format | Patent |
Language | English French |
Published |
05.01.2006
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | Systems and methods to process and correct spelling errors for non-Roman based words such as in Chinese, Japanese, and Korean languages using a rule-based classifier and a hidden Markov model are disclosed. The method generally includes converting an input entry in a first language such as Chinese to at least one intermediate entry in an intermediate representation, such as pinyin, different from the first language, converting the intermediate entry to at least one possible alternative spelling or form of the input in the first language, and determining that the input entry is either a correct or questionable input entry when a match between the input entry and all possible alternative spellings to the input entry is or is not located, respectively. The questionable input entry may be classified using, for example, a transformation rule based classifier based on transformation rules generated by a transformation rules generator.
L'invention concerne des systèmes et des procédés pour le traitement et la correction d'erreurs d'orthographe pour mots en caractères non romains du type chinois, japonais et coréens en utilisant un classificateur à base de règles et un modèle de Markov caché. Le procédé consiste en règle générale à convertir une saisie d'origine en première langue du type chinois vers au moins une saisie intermédiaire en représentation intermédiaire, du type pinyin, différant de la première langue, puis à convertir la saisie intermédiaire vers au moins une orthographe ou forme alternative possible de la saisie d'origine dans la première langue, et à déterminer que la saisie est correcte ou douteuse lorsqu'une correspondance entre la saisie d'origine et toutes les orthographes alternatives possibles de la saisie d'origine est ou n'est pas localisée, respectivement. La saisie d'origine douteuse peut être classifiée,par exemple, au moyen d'un classificateur à base de règles de transformation reposant sur des règles de transformation produites par un générateur de règles de transformation. |
---|---|
Bibliography: | Application Number: WO2005US22027 |