COMPUTER-IMPLEMENTED UNSTRUCTURED DOCUMENT PROCESSING METHOD, COMPUTER PROGRAM AND SYSTEM (ANALYZING DUPLICATED DATA BLOCKS ASSOCIATED WITH UNSTRUCTURED DOCUMENTS)

To improve computer technology by enabling block-based text analytics rather than document-based text analytics.SOLUTION: Techniques are described relating to unstructured document processing. An associated computer-implemented method includes identifying a plurality of duplicated data blocks associ...

Full description

Saved in:
Bibliographic Details
Main Authors YANNICK SAILLET, MICHAEL BAESSLER, THOMAS HAMPP-BAHNMUELLER
Format Patent
LanguageEnglish
Japanese
Published 08.06.2023
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:To improve computer technology by enabling block-based text analytics rather than document-based text analytics.SOLUTION: Techniques are described relating to unstructured document processing. An associated computer-implemented method includes identifying a plurality of duplicated data blocks associated with a collection of unstructured documents. The method further includes sorting the plurality of duplicated data blocks in descending order based upon at least one block frequency metric, selecting a highest sorted unprocessed duplicated data block, applying text analytics to the selected duplicated data block, and applying at least one result of the text analytics to any document in the collection of unstructured documents including the selected duplicated data block. The method is terminated in response to satisfaction of at least one stopping condition.SELECTED DRAWING: Figure 4 【課題】ドキュメントベーステキストアナリティクスではなくブロックベーステキストアナリティクスを可能にすることによって、コンピュータ技術を改善する。【解決手段】非構造化ドキュメント処理に関する技法が説明される。関連付けられたコンピュータ実装方法は、非構造化ドキュメントの一群に関連付けられた複数の重複データブロックを識別する段階を含む。方法は、複数の重複データブロックを、少なくとも1つのブロック頻度メトリックに基づく降順においてソートする段階と、最上位にソートされた未処理の重複データブロックを選択する段階と、選択された重複データブロックにテキストアナリティクスを適用する段階と、選択された重複データブロックを含む前記非構造化ドキュメントの一群の中の任意のドキュメントにテキストアナリティクスの少なくとも1つの結果を適用する段階と更に備える。方法は、少なくとも1つの停止条件を満たしていることに応答して終了される。【選択図】図4
Bibliography:Application Number: JP20220181567