COMPUTER-IMPLEMENTED UNSTRUCTURED DOCUMENT PROCESSING METHOD, COMPUTER PROGRAM AND SYSTEM (ANALYZING DUPLICATED DATA BLOCKS ASSOCIATED WITH UNSTRUCTURED DOCUMENTS)

To improve computer technology by enabling block-based text analytics rather than document-based text analytics.SOLUTION: Techniques are described relating to unstructured document processing. An associated computer-implemented method includes identifying a plurality of duplicated data blocks associ...

Full description

Saved in:
Bibliographic Details
Main Authors YANNICK SAILLET, MICHAEL BAESSLER, THOMAS HAMPP-BAHNMUELLER
Format Patent
LanguageEnglish
Japanese
Published 08.06.2023
Subjects
Online AccessGet full text

Cover

Loading…
Abstract To improve computer technology by enabling block-based text analytics rather than document-based text analytics.SOLUTION: Techniques are described relating to unstructured document processing. An associated computer-implemented method includes identifying a plurality of duplicated data blocks associated with a collection of unstructured documents. The method further includes sorting the plurality of duplicated data blocks in descending order based upon at least one block frequency metric, selecting a highest sorted unprocessed duplicated data block, applying text analytics to the selected duplicated data block, and applying at least one result of the text analytics to any document in the collection of unstructured documents including the selected duplicated data block. The method is terminated in response to satisfaction of at least one stopping condition.SELECTED DRAWING: Figure 4 【課題】ドキュメントベーステキストアナリティクスではなくブロックベーステキストアナリティクスを可能にすることによって、コンピュータ技術を改善する。【解決手段】非構造化ドキュメント処理に関する技法が説明される。関連付けられたコンピュータ実装方法は、非構造化ドキュメントの一群に関連付けられた複数の重複データブロックを識別する段階を含む。方法は、複数の重複データブロックを、少なくとも1つのブロック頻度メトリックに基づく降順においてソートする段階と、最上位にソートされた未処理の重複データブロックを選択する段階と、選択された重複データブロックにテキストアナリティクスを適用する段階と、選択された重複データブロックを含む前記非構造化ドキュメントの一群の中の任意のドキュメントにテキストアナリティクスの少なくとも1つの結果を適用する段階と更に備える。方法は、少なくとも1つの停止条件を満たしていることに応答して終了される。【選択図】図4
AbstractList To improve computer technology by enabling block-based text analytics rather than document-based text analytics.SOLUTION: Techniques are described relating to unstructured document processing. An associated computer-implemented method includes identifying a plurality of duplicated data blocks associated with a collection of unstructured documents. The method further includes sorting the plurality of duplicated data blocks in descending order based upon at least one block frequency metric, selecting a highest sorted unprocessed duplicated data block, applying text analytics to the selected duplicated data block, and applying at least one result of the text analytics to any document in the collection of unstructured documents including the selected duplicated data block. The method is terminated in response to satisfaction of at least one stopping condition.SELECTED DRAWING: Figure 4 【課題】ドキュメントベーステキストアナリティクスではなくブロックベーステキストアナリティクスを可能にすることによって、コンピュータ技術を改善する。【解決手段】非構造化ドキュメント処理に関する技法が説明される。関連付けられたコンピュータ実装方法は、非構造化ドキュメントの一群に関連付けられた複数の重複データブロックを識別する段階を含む。方法は、複数の重複データブロックを、少なくとも1つのブロック頻度メトリックに基づく降順においてソートする段階と、最上位にソートされた未処理の重複データブロックを選択する段階と、選択された重複データブロックにテキストアナリティクスを適用する段階と、選択された重複データブロックを含む前記非構造化ドキュメントの一群の中の任意のドキュメントにテキストアナリティクスの少なくとも1つの結果を適用する段階と更に備える。方法は、少なくとも1つの停止条件を満たしていることに応答して終了される。【選択図】図4
Author MICHAEL BAESSLER
THOMAS HAMPP-BAHNMUELLER
YANNICK SAILLET
Author_xml – fullname: YANNICK SAILLET
– fullname: MICHAEL BAESSLER
– fullname: THOMAS HAMPP-BAHNMUELLER
BookMark eNqNTbtuwjAUzdAOtOUfrphAKlKUDO16a7vEED_key2ULgghM1UBCf6IHwUj2BiYjs77rXjpd30aFCfhjI-swlQb3yqjLCsJ0RKHKDiGC5FOxKyDD04oIm1nYBQ3Tn7CvZ29WUADaCVQR6wMjNFi2_3luIy-1QLztERG-GmdWBAgkRP6Ki81N49vafJRvG7X_4c0vOF7MfpVLJpp2u9W6bBfb1Kfjqu5r8qqLr_LsvrC-qnQGWtUSPc
ContentType Patent
DBID EVB
DatabaseName esp@cenet
DatabaseTitleList
Database_xml – sequence: 1
  dbid: EVB
  name: esp@cenet
  url: http://worldwide.espacenet.com/singleLineSearch?locale=en_EP
  sourceTypes: Open Access Repository
DeliveryMethod fulltext_linktorsrc
Discipline Medicine
Chemistry
Sciences
Physics
DocumentTitleAlternate コンピュータ実装非構造化ドキュメント処理方法、コンピュータプログラム及びシステム(非構造化ドキュメントに関連付けられた重複データブロックの分析)
ExternalDocumentID JP2023080027A
GroupedDBID EVB
ID FETCH-epo_espacenet_JP2023080027A3
IEDL.DBID EVB
IngestDate Fri Jul 19 13:08:00 EDT 2024
IsOpenAccess true
IsPeerReviewed false
IsScholarly false
Language English
Japanese
LinkModel DirectLink
MergedId FETCHMERGED-epo_espacenet_JP2023080027A3
Notes Application Number: JP20220181567
OpenAccessLink https://worldwide.espacenet.com/publicationDetails/biblio?FT=D&date=20230608&DB=EPODOC&CC=JP&NR=2023080027A
ParticipantIDs epo_espacenet_JP2023080027A
PublicationCentury 2000
PublicationDate 20230608
PublicationDateYYYYMMDD 2023-06-08
PublicationDate_xml – month: 06
  year: 2023
  text: 20230608
  day: 08
PublicationDecade 2020
PublicationYear 2023
RelatedCompanies INTERNATIONAL BUSINESS MASCHINES CORPORATION
RelatedCompanies_xml – name: INTERNATIONAL BUSINESS MASCHINES CORPORATION
Score 3.6039135
Snippet To improve computer technology by enabling block-based text analytics rather than document-based text analytics.SOLUTION: Techniques are described relating to...
SourceID epo
SourceType Open Access Repository
SubjectTerms CALCULATING
COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
COMPUTING
COUNTING
ELECTRIC DIGITAL DATA PROCESSING
PHYSICS
Title COMPUTER-IMPLEMENTED UNSTRUCTURED DOCUMENT PROCESSING METHOD, COMPUTER PROGRAM AND SYSTEM (ANALYZING DUPLICATED DATA BLOCKS ASSOCIATED WITH UNSTRUCTURED DOCUMENTS)
URI https://worldwide.espacenet.com/publicationDetails/biblio?FT=D&date=20230608&DB=EPODOC&locale=&CC=JP&NR=2023080027A
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
link http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwfV1LT8JAEJ4gPm-KGhU1G2MaTWxUKNv2QEzZLRakj9BWwQuhr0RNgEiNP8g_6u4KysFw7MzutLubb2bazgPgvFqpxUNmWBmQ9ERWYj2SteQ2lTFWEmYysIZF-pjtYCtU2r1arwBv81wYUSf0UxRHZIiKGd5zoa8nfx-xqIitnF5HL4w0vmsGdSrN3o65P32jSbRRNz2XukQipN72JKf7w-POkWqswCrzo1UOB_OxwdNSJos2pbkNax4TN8p3oPA6LMEmmbdeK8GGPfvjXYJ1EaIZTxlxBsPpLnwR1_ZC5ojKLdvriHr8JkWh4wfdkPA4BorYY4WcjryuS7jKdO6RbQaWS6_QfDbn3XcNGxkORX7fD0wbXRiO0ek_8-E09ESeMZdmBAZqdFzy4CNRCLIlyE-twPr_tv7lHpw1zYBYMlv34HeXB21vYY-q-1AcjUfpAaAkrWR6lkQqxrGSqnqUxQpv64nTbKhWsXoI5SWCjpZyy7DFr0TolXYMxfz9Iz1hRj6PTsXhfANu1p8f
link.rule.ids 230,309,783,888,25576,76876
linkProvider European Patent Office
linkToHtml http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwfV1ZTwIxEJ4gHvimqFHxaIwhmrhRYekuD8Qs7cIu7BV2V8EXwh4kagJEMP4g_6htBeXB8DrTTq98nWk7MwW4LJcq8YApVgakaiLJcTWS1OQ-lTCWE6YysIpF-JjtYCOUW91KNwNvi1gYkSf0UyRHZIiKGd5nYr-e_F1iUeFbOb2NXhhp_NAIarQ4Px1ze_pOLdJ6Tfdc6pIiIbWWV3Q6PzxuHCnaGqwzG1vhcNAf6zwsZbKsUxo7sOExcaPZLmReB3nIkcXXa3nYsucv3nnYFC6a8ZQR5zCc7sEXcW0vZIaoZNqeJfLx6xSFjh90QsL9GChi3Qo5HXkdl_At02kiWw8Ml96gRW3Oa3Y0G2kORX7PD3QbXWmOZvWeeXEaeiLOmEvTAg3VLZe0fSQSQZqC_GQGxv_N-tf7cNHQA2JIbNz931nut7ylOSofQHY0HqWHgJK0NKwOk0jBOJZTpRoNY5l_64nT4UApY-UICisEHa_knkPOCGyrb5lOuwDbnCPcsNQTyM7eP9JTpvBn0ZlYqG8UmaIS
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Apatent&rft.title=COMPUTER-IMPLEMENTED+UNSTRUCTURED+DOCUMENT+PROCESSING+METHOD%2C+COMPUTER+PROGRAM+AND+SYSTEM+%28ANALYZING+DUPLICATED+DATA+BLOCKS+ASSOCIATED+WITH+UNSTRUCTURED+DOCUMENTS%29&rft.inventor=YANNICK+SAILLET&rft.inventor=MICHAEL+BAESSLER&rft.inventor=THOMAS+HAMPP-BAHNMUELLER&rft.date=2023-06-08&rft.externalDBID=A&rft.externalDocID=JP2023080027A