METHOD FOR BUILDING CHARACTER SEQUENCE DICTIONARY, METHOD FOR SEARCHING CHARACTER SEQUENCE DICTIONARY, AND SYSTEM FOR PROCESSING CHARACTER SEQUENCE DICTIONARY

A multicore CPU (101) of a character sequence data analysis device (1) spreads, across a memory (102), a plurality of blocks obtained by dividing a character sequence dictionary (112), and performs an entry registration process in which unregistered character sequences constituting character sequenc...

Full description

Saved in:
Bibliographic Details
Main Author KIMURA Kouichi
Format Patent
LanguageEnglish
French
Japanese
Published 08.03.2018
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:A multicore CPU (101) of a character sequence data analysis device (1) spreads, across a memory (102), a plurality of blocks obtained by dividing a character sequence dictionary (112), and performs an entry registration process in which unregistered character sequences constituting character sequence data (111) are registered in respective blocks as new entries, one character at a time from the last character of each character sequence, wherein: the entry registration process is performed for a group of blocks in a parallel manner, the blocks in said group of blocks being capable of being processed independently of each other; and when all of the unregistered character sequences have been registered in the respective blocks, a character sequence obtained by concatenating the character sequences registered in the entries of the blocks is output as BW-converted data for the character sequence dictionary (112), in which the character sequence data (111) is already registered. Une unité centrale multicoeur (101) d'un dispositif d'analyse de données de séquence de caractères (1) répand, à travers une mémoire (102), une pluralité de blocs obtenus par division d'un dictionnaire de séquences de caractères (112), et effectue un processus d'enregistrement d'entrée dans lequel des séquences de caractères non enregistrées constituant des données de séquence de caractères (111) sont enregistrées dans des blocs respectifs en tant que nouvelles entrées, un caractère à la fois à partir du dernier caractère de chaque séquence de caractères, dans lequel: le processus d'enregistrement d'entrée est effectué pour un groupe de blocs d'une manière parallèle, les blocs dans ledit groupe de blocs pouvant être traités indépendamment les uns des autres; et lorsque toutes les séquences de caractères non enregistrées ont été enregistrées dans les blocs respectifs, une séquence de caractères obtenue par concaténation des séquences de caractères enregistrées dans les entrées des blocs est délivrée sous forme de données converties en BW pour le dictionnaire de séquences de caractères (112), dans laquelle les données de séquence de caractères (111) sont déjà enregistrées. 文字列データ解析装置(1)のマルチコアCPU(101)は、文字列辞書(112)を分割した複数のブロックをメモリ(102)上に展開し、文字列データ(111)の未登録文字列を末尾文字から1文字ずつ各ブロックに新たなエントリとして登録するエントリ登録処理について、互いに独立に実行可能なブロックのグループについて並列に実行し、各ブロックの未登録文字列が無くなった状態で、各ブロックのエントリに登録されている文字列を連結した文字列を文字列データ(111)が登録済みの文字列辞書(112)のBW変換データとして出力する。
Bibliography:Application Number: WO2016JP75747