COMPUTER-IMPLEMENTED UNSTRUCTURED DOCUMENT PROCESSING METHOD, COMPUTER PROGRAM AND SYSTEM (ANALYZING DUPLICATED DATA BLOCKS ASSOCIATED WITH UNSTRUCTURED DOCUMENTS)
To improve computer technology by enabling block-based text analytics rather than document-based text analytics.SOLUTION: Techniques are described relating to unstructured document processing. An associated computer-implemented method includes identifying a plurality of duplicated data blocks associ...
Saved in:
Main Authors | , , |
---|---|
Format | Patent |
Language | English Japanese |
Published |
08.06.2023
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Abstract | To improve computer technology by enabling block-based text analytics rather than document-based text analytics.SOLUTION: Techniques are described relating to unstructured document processing. An associated computer-implemented method includes identifying a plurality of duplicated data blocks associated with a collection of unstructured documents. The method further includes sorting the plurality of duplicated data blocks in descending order based upon at least one block frequency metric, selecting a highest sorted unprocessed duplicated data block, applying text analytics to the selected duplicated data block, and applying at least one result of the text analytics to any document in the collection of unstructured documents including the selected duplicated data block. The method is terminated in response to satisfaction of at least one stopping condition.SELECTED DRAWING: Figure 4
【課題】ドキュメントベーステキストアナリティクスではなくブロックベーステキストアナリティクスを可能にすることによって、コンピュータ技術を改善する。【解決手段】非構造化ドキュメント処理に関する技法が説明される。関連付けられたコンピュータ実装方法は、非構造化ドキュメントの一群に関連付けられた複数の重複データブロックを識別する段階を含む。方法は、複数の重複データブロックを、少なくとも1つのブロック頻度メトリックに基づく降順においてソートする段階と、最上位にソートされた未処理の重複データブロックを選択する段階と、選択された重複データブロックにテキストアナリティクスを適用する段階と、選択された重複データブロックを含む前記非構造化ドキュメントの一群の中の任意のドキュメントにテキストアナリティクスの少なくとも1つの結果を適用する段階と更に備える。方法は、少なくとも1つの停止条件を満たしていることに応答して終了される。【選択図】図4 |
---|---|
AbstractList | To improve computer technology by enabling block-based text analytics rather than document-based text analytics.SOLUTION: Techniques are described relating to unstructured document processing. An associated computer-implemented method includes identifying a plurality of duplicated data blocks associated with a collection of unstructured documents. The method further includes sorting the plurality of duplicated data blocks in descending order based upon at least one block frequency metric, selecting a highest sorted unprocessed duplicated data block, applying text analytics to the selected duplicated data block, and applying at least one result of the text analytics to any document in the collection of unstructured documents including the selected duplicated data block. The method is terminated in response to satisfaction of at least one stopping condition.SELECTED DRAWING: Figure 4
【課題】ドキュメントベーステキストアナリティクスではなくブロックベーステキストアナリティクスを可能にすることによって、コンピュータ技術を改善する。【解決手段】非構造化ドキュメント処理に関する技法が説明される。関連付けられたコンピュータ実装方法は、非構造化ドキュメントの一群に関連付けられた複数の重複データブロックを識別する段階を含む。方法は、複数の重複データブロックを、少なくとも1つのブロック頻度メトリックに基づく降順においてソートする段階と、最上位にソートされた未処理の重複データブロックを選択する段階と、選択された重複データブロックにテキストアナリティクスを適用する段階と、選択された重複データブロックを含む前記非構造化ドキュメントの一群の中の任意のドキュメントにテキストアナリティクスの少なくとも1つの結果を適用する段階と更に備える。方法は、少なくとも1つの停止条件を満たしていることに応答して終了される。【選択図】図4 |
Author | MICHAEL BAESSLER THOMAS HAMPP-BAHNMUELLER YANNICK SAILLET |
Author_xml | – fullname: YANNICK SAILLET – fullname: MICHAEL BAESSLER – fullname: THOMAS HAMPP-BAHNMUELLER |
BookMark | eNqNTbtuwjAUzdAOtOUfrphAKlKUDO16a7vEED_key2ULgghM1UBCf6IHwUj2BiYjs77rXjpd30aFCfhjI-swlQb3yqjLCsJ0RKHKDiGC5FOxKyDD04oIm1nYBQ3Tn7CvZ29WUADaCVQR6wMjNFi2_3luIy-1QLztERG-GmdWBAgkRP6Ki81N49vafJRvG7X_4c0vOF7MfpVLJpp2u9W6bBfb1Kfjqu5r8qqLr_LsvrC-qnQGWtUSPc |
ContentType | Patent |
DBID | EVB |
DatabaseName | esp@cenet |
DatabaseTitleList | |
Database_xml | – sequence: 1 dbid: EVB name: esp@cenet url: http://worldwide.espacenet.com/singleLineSearch?locale=en_EP sourceTypes: Open Access Repository |
DeliveryMethod | fulltext_linktorsrc |
Discipline | Medicine Chemistry Sciences Physics |
DocumentTitleAlternate | コンピュータ実装非構造化ドキュメント処理方法、コンピュータプログラム及びシステム(非構造化ドキュメントに関連付けられた重複データブロックの分析) |
ExternalDocumentID | JP2023080027A |
GroupedDBID | EVB |
ID | FETCH-epo_espacenet_JP2023080027A3 |
IEDL.DBID | EVB |
IngestDate | Fri Jul 19 13:08:00 EDT 2024 |
IsOpenAccess | true |
IsPeerReviewed | false |
IsScholarly | false |
Language | English Japanese |
LinkModel | DirectLink |
MergedId | FETCHMERGED-epo_espacenet_JP2023080027A3 |
Notes | Application Number: JP20220181567 |
OpenAccessLink | https://worldwide.espacenet.com/publicationDetails/biblio?FT=D&date=20230608&DB=EPODOC&CC=JP&NR=2023080027A |
ParticipantIDs | epo_espacenet_JP2023080027A |
PublicationCentury | 2000 |
PublicationDate | 20230608 |
PublicationDateYYYYMMDD | 2023-06-08 |
PublicationDate_xml | – month: 06 year: 2023 text: 20230608 day: 08 |
PublicationDecade | 2020 |
PublicationYear | 2023 |
RelatedCompanies | INTERNATIONAL BUSINESS MASCHINES CORPORATION |
RelatedCompanies_xml | – name: INTERNATIONAL BUSINESS MASCHINES CORPORATION |
Score | 3.6039135 |
Snippet | To improve computer technology by enabling block-based text analytics rather than document-based text analytics.SOLUTION: Techniques are described relating to... |
SourceID | epo |
SourceType | Open Access Repository |
SubjectTerms | CALCULATING COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS COMPUTING COUNTING ELECTRIC DIGITAL DATA PROCESSING PHYSICS |
Title | COMPUTER-IMPLEMENTED UNSTRUCTURED DOCUMENT PROCESSING METHOD, COMPUTER PROGRAM AND SYSTEM (ANALYZING DUPLICATED DATA BLOCKS ASSOCIATED WITH UNSTRUCTURED DOCUMENTS) |
URI | https://worldwide.espacenet.com/publicationDetails/biblio?FT=D&date=20230608&DB=EPODOC&locale=&CC=JP&NR=2023080027A |
hasFullText | 1 |
inHoldings | 1 |
isFullTextHit | |
isPrint | |
link | http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwfV1LT8JAEJ4gPm-KGhU1G2MaTWxUKNv2QEzZLRakj9BWwQuhr0RNgEiNP8g_6u4KysFw7MzutLubb2bazgPgvFqpxUNmWBmQ9ERWYj2SteQ2lTFWEmYysIZF-pjtYCtU2r1arwBv81wYUSf0UxRHZIiKGd5zoa8nfx-xqIitnF5HL4w0vmsGdSrN3o65P32jSbRRNz2XukQipN72JKf7w-POkWqswCrzo1UOB_OxwdNSJos2pbkNax4TN8p3oPA6LMEmmbdeK8GGPfvjXYJ1EaIZTxlxBsPpLnwR1_ZC5ojKLdvriHr8JkWh4wfdkPA4BorYY4WcjryuS7jKdO6RbQaWS6_QfDbn3XcNGxkORX7fD0wbXRiO0ek_8-E09ESeMZdmBAZqdFzy4CNRCLIlyE-twPr_tv7lHpw1zYBYMlv34HeXB21vYY-q-1AcjUfpAaAkrWR6lkQqxrGSqnqUxQpv64nTbKhWsXoI5SWCjpZyy7DFr0TolXYMxfz9Iz1hRj6PTsXhfANu1p8f |
link.rule.ids | 230,309,783,888,25576,76876 |
linkProvider | European Patent Office |
linkToHtml | http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwfV1ZTwIxEJ4gHvimqFHxaIwhmrhRYekuD8Qs7cIu7BV2V8EXwh4kagJEMP4g_6htBeXB8DrTTq98nWk7MwW4LJcq8YApVgakaiLJcTWS1OQ-lTCWE6YysIpF-JjtYCOUW91KNwNvi1gYkSf0UyRHZIiKGd5nYr-e_F1iUeFbOb2NXhhp_NAIarQ4Px1ze_pOLdJ6Tfdc6pIiIbWWV3Q6PzxuHCnaGqwzG1vhcNAf6zwsZbKsUxo7sOExcaPZLmReB3nIkcXXa3nYsucv3nnYFC6a8ZQR5zCc7sEXcW0vZIaoZNqeJfLx6xSFjh90QsL9GChi3Qo5HXkdl_At02kiWw8Ml96gRW3Oa3Y0G2kORX7PD3QbXWmOZvWeeXEaeiLOmEvTAg3VLZe0fSQSQZqC_GQGxv_N-tf7cNHQA2JIbNz931nut7ylOSofQHY0HqWHgJK0NKwOk0jBOJZTpRoNY5l_64nT4UApY-UICisEHa_knkPOCGyrb5lOuwDbnCPcsNQTyM7eP9JTpvBn0ZlYqG8UmaIS |
openUrl | ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Apatent&rft.title=COMPUTER-IMPLEMENTED+UNSTRUCTURED+DOCUMENT+PROCESSING+METHOD%2C+COMPUTER+PROGRAM+AND+SYSTEM+%28ANALYZING+DUPLICATED+DATA+BLOCKS+ASSOCIATED+WITH+UNSTRUCTURED+DOCUMENTS%29&rft.inventor=YANNICK+SAILLET&rft.inventor=MICHAEL+BAESSLER&rft.inventor=THOMAS+HAMPP-BAHNMUELLER&rft.date=2023-06-08&rft.externalDBID=A&rft.externalDocID=JP2023080027A |