LANGUAGE AUTODETECTION FROM NON-CHARACTER SUB-TOKEN SIGNALS

In non-limiting examples of the present disclosure, systems, methods and devices for determining a language of a text string are presented. A language detection model may be maintained. The language detection model may comprise identities and weights for initial and final consonants, identities and...

Full description

Saved in:
Bibliographic Details
Main Authors GLASS, Andrew Stuart, RADTKE, Roland, MAGNUS, Margaret Hope
Format Patent
LanguageEnglish
French
Published 24.03.2022
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:In non-limiting examples of the present disclosure, systems, methods and devices for determining a language of a text string are presented. A language detection model may be maintained. The language detection model may comprise identities and weights for initial and final consonants, identities and weights for prefixes and suffixes, and identities and weights for vowel sequences, where each identity is derived from a training corpus. The weights may correspond to a frequency of a text unit in the corpus. A text string may be received and a match score between the text string and the language of the language detection model may be determined. The match score may be based on initial and final consonant scores, prefix and suffix scores, and/or vowel sequence scores for each word in the text string. If the match score meets a threshold value a follow-up action associated with the language may be performed. Des exemples non limitatifs de la présente divulgation portent sur des systèmes, sur des procédés et sur des dispositifs permettant de déterminer la langue dans une chaîne de texte. Un modèle de détection de langue peut être maintenu. Le modèle de détection de langue peut comprendre des identités et des poids pour des consonnes initiales et finales, des identités et des poids pour des préfixes et des suffixes, et des identités et des poids pour des séquences de voyelles, chaque identité étant dérivée d'un corpus d'apprentissage. Les poids peuvent correspondre à une fréquence d'une unité de texte dans le corps. Une chaîne de texte peut être reçue et un score de correspondance entre la chaîne de texte et la langue du modèle de détection de langue peut être déterminé. Le score de correspondance peut être basé sur des scores de consonnes initiales et finales, des scores de préfixe et de suffixe et/ou des scores de séquence de voyelles pour chaque mot dans la chaîne de texte Si le score de correspondance satisfait à une valeur seuil, une action de suivi associée à la langue peut être effectuée.
Bibliography:Application Number: WO2021US35563