COMPUTER-IMPLEMENTED UNSTRUCTURED DOCUMENT PROCESSING METHOD, COMPUTER PROGRAM AND SYSTEM (ANALYZING DUPLICATED DATA BLOCKS ASSOCIATED WITH UNSTRUCTURED DOCUMENTS)

To improve computer technology by enabling block-based text analytics rather than document-based text analytics.SOLUTION: Techniques are described relating to unstructured document processing. An associated computer-implemented method includes identifying a plurality of duplicated data blocks associ...

Full description

Saved in:

Bibliographic Details
Main Authors	YANNICK SAILLET, MICHAEL BAESSLER, THOMAS HAMPP-BAHNMUELLER
Format	Patent
Language	English Japanese
Published	08.06.2023
Subjects	CALCULATING COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS COMPUTING COUNTING ELECTRIC DIGITAL DATA PROCESSING PHYSICS
Online Access	Get full text

Cover

Loading…

Abstract	To improve computer technology by enabling block-based text analytics rather than document-based text analytics.SOLUTION: Techniques are described relating to unstructured document processing. An associated computer-implemented method includes identifying a plurality of duplicated data blocks associated with a collection of unstructured documents. The method further includes sorting the plurality of duplicated data blocks in descending order based upon at least one block frequency metric, selecting a highest sorted unprocessed duplicated data block, applying text analytics to the selected duplicated data block, and applying at least one result of the text analytics to any document in the collection of unstructured documents including the selected duplicated data block. The method is terminated in response to satisfaction of at least one stopping condition.SELECTED DRAWING: Figure 4 【課題】ドキュメントベーステキストアナリティクスではなくブロックベーステキストアナリティクスを可能にすることによって、コンピュータ技術を改善する。【解決手段】非構造化ドキュメント処理に関する技法が説明される。関連付けられたコンピュータ実装方法は、非構造化ドキュメントの一群に関連付けられた複数の重複データブロックを識別する段階を含む。方法は、複数の重複データブロックを、少なくとも１つのブロック頻度メトリックに基づく降順においてソートする段階と、最上位にソートされた未処理の重複データブロックを選択する段階と、選択された重複データブロックにテキストアナリティクスを適用する段階と、選択された重複データブロックを含む前記非構造化ドキュメントの一群の中の任意のドキュメントにテキストアナリティクスの少なくとも１つの結果を適用する段階と更に備える。方法は、少なくとも１つの停止条件を満たしていることに応答して終了される。【選択図】図４
AbstractList	To improve computer technology by enabling block-based text analytics rather than document-based text analytics.SOLUTION: Techniques are described relating to unstructured document processing. An associated computer-implemented method includes identifying a plurality of duplicated data blocks associated with a collection of unstructured documents. The method further includes sorting the plurality of duplicated data blocks in descending order based upon at least one block frequency metric, selecting a highest sorted unprocessed duplicated data block, applying text analytics to the selected duplicated data block, and applying at least one result of the text analytics to any document in the collection of unstructured documents including the selected duplicated data block. The method is terminated in response to satisfaction of at least one stopping condition.SELECTED DRAWING: Figure 4 【課題】ドキュメントベーステキストアナリティクスではなくブロックベーステキストアナリティクスを可能にすることによって、コンピュータ技術を改善する。【解決手段】非構造化ドキュメント処理に関する技法が説明される。関連付けられたコンピュータ実装方法は、非構造化ドキュメントの一群に関連付けられた複数の重複データブロックを識別する段階を含む。方法は、複数の重複データブロックを、少なくとも１つのブロック頻度メトリックに基づく降順においてソートする段階と、最上位にソートされた未処理の重複データブロックを選択する段階と、選択された重複データブロックにテキストアナリティクスを適用する段階と、選択された重複データブロックを含む前記非構造化ドキュメントの一群の中の任意のドキュメントにテキストアナリティクスの少なくとも１つの結果を適用する段階と更に備える。方法は、少なくとも１つの停止条件を満たしていることに応答して終了される。【選択図】図４
Author	MICHAEL BAESSLER THOMAS HAMPP-BAHNMUELLER YANNICK SAILLET
Author_xml	– fullname: YANNICK SAILLET – fullname: MICHAEL BAESSLER – fullname: THOMAS HAMPP-BAHNMUELLER
BookMark	eNqNTbtuwjAUzdAOtOUfrphAKlKUDO16a7vEED_key2ULgghM1UBCf6IHwUj2BiYjs77rXjpd30aFCfhjI-swlQb3yqjLCsJ0RKHKDiGC5FOxKyDD04oIm1nYBQ3Tn7CvZ29WUADaCVQR6wMjNFi2_3luIy-1QLztERG-GmdWBAgkRP6Ki81N49vafJRvG7X_4c0vOF7MfpVLJpp2u9W6bBfb1Kfjqu5r8qqLr_LsvrC-qnQGWtUSPc
ContentType	Patent
DBID	EVB
DatabaseName	esp@cenet
DatabaseTitleList
Database_xml	– sequence: 1 dbid: EVB name: esp@cenet url: http://worldwide.espacenet.com/singleLineSearch?locale=en_EP sourceTypes: Open Access Repository
DeliveryMethod	fulltext_linktorsrc
Discipline	Medicine Chemistry Sciences Physics
DocumentTitleAlternate	コンピュータ実装非構造化ドキュメント処理方法、コンピュータプログラム及びシステム（非構造化ドキュメントに関連付けられた重複データブロックの分析）
ExternalDocumentID	JP2023080027A
GroupedDBID	EVB
ID	FETCH-epo_espacenet_JP2023080027A3
IEDL.DBID	EVB
IngestDate	Fri Jul 19 13:08:00 EDT 2024
IsOpenAccess	true
IsPeerReviewed	false
IsScholarly	false
Language	English Japanese
LinkModel	DirectLink
MergedId	FETCHMERGED-epo_espacenet_JP2023080027A3
Notes	Application Number: JP20220181567
OpenAccessLink	https://worldwide.espacenet.com/publicationDetails/biblio?FT=D&date=20230608&DB=EPODOC&CC=JP&NR=2023080027A
ParticipantIDs	epo_espacenet_JP2023080027A
PublicationCentury	2000
PublicationDate	20230608
PublicationDateYYYYMMDD	2023-06-08
PublicationDate_xml	– month: 06 year: 2023 text: 20230608 day: 08
PublicationDecade	2020
PublicationYear	2023
RelatedCompanies	INTERNATIONAL BUSINESS MASCHINES CORPORATION
RelatedCompanies_xml	– name: INTERNATIONAL BUSINESS MASCHINES CORPORATION
Score	3.6039135
Snippet	To improve computer technology by enabling block-based text analytics rather than document-based text analytics.SOLUTION: Techniques are described relating to...
SourceID	epo
SourceType	Open Access Repository
SubjectTerms	CALCULATING COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS COMPUTING COUNTING ELECTRIC DIGITAL DATA PROCESSING PHYSICS
Title	COMPUTER-IMPLEMENTED UNSTRUCTURED DOCUMENT PROCESSING METHOD, COMPUTER PROGRAM AND SYSTEM (ANALYZING DUPLICATED DATA BLOCKS ASSOCIATED WITH UNSTRUCTURED DOCUMENTS)
URI	https://worldwide.espacenet.com/publicationDetails/biblio?FT=D&date=20230608&DB=EPODOC&locale=&CC=JP&NR=2023080027A
hasFullText	1
inHoldings	1
isFullTextHit
isPrint
link	http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwfV1LT8JAEJ4gPm-KGhU1G2MaTWxUKNv2QEzZLRakj9BWwQuhr0RNgEiNP8g_6u4KysFw7MzutLubb2bazgPgvFqpxUNmWBmQ9ERWYj2SteQ2lTFWEmYysIZF-pjtYCtU2r1arwBv81wYUSf0UxRHZIiKGd5zoa8nfx-xqIitnF5HL4w0vmsGdSrN3o65P32jSbRRNz2XukQipN72JKf7w-POkWqswCrzo1UOB_OxwdNSJos2pbkNax4TN8p3oPA6LMEmmbdeK8GGPfvjXYJ1EaIZTxlxBsPpLnwR1_ZC5ojKLdvriHr8JkWh4wfdkPA4BorYY4WcjryuS7jKdO6RbQaWS6_QfDbn3XcNGxkORX7fD0wbXRiO0ek_8-E09ESeMZdmBAZqdFzy4CNRCLIlyE-twPr_tv7lHpw1zYBYMlv34HeXB21vYY-q-1AcjUfpAaAkrWR6lkQqxrGSqnqUxQpv64nTbKhWsXoI5SWCjpZyy7DFr0TolXYMxfz9Iz1hRj6PTsXhfANu1p8f
link.rule.ids	230,309,783,888,25576,76876
linkProvider	European Patent Office
linkToHtml	http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwfV1ZTwIxEJ4gHvimqFHxaIwhmrhRYekuD8Qs7cIu7BV2V8EXwh4kagJEMP4g_6htBeXB8DrTTq98nWk7MwW4LJcq8YApVgakaiLJcTWS1OQ-lTCWE6YysIpF-JjtYCOUW91KNwNvi1gYkSf0UyRHZIiKGd5nYr-e_F1iUeFbOb2NXhhp_NAIarQ4Px1ze_pOLdJ6Tfdc6pIiIbWWV3Q6PzxuHCnaGqwzG1vhcNAf6zwsZbKsUxo7sOExcaPZLmReB3nIkcXXa3nYsucv3nnYFC6a8ZQR5zCc7sEXcW0vZIaoZNqeJfLx6xSFjh90QsL9GChi3Qo5HXkdl_At02kiWw8Ml96gRW3Oa3Y0G2kORX7PD3QbXWmOZvWeeXEaeiLOmEvTAg3VLZe0fSQSQZqC_GQGxv_N-tf7cNHQA2JIbNz931nut7ylOSofQHY0HqWHgJK0NKwOk0jBOJZTpRoNY5l_64nT4UApY-UICisEHa_knkPOCGyrb5lOuwDbnCPcsNQTyM7eP9JTpvBn0ZlYqG8UmaIS
openUrl	ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Apatent&rft.title=COMPUTER-IMPLEMENTED+UNSTRUCTURED+DOCUMENT+PROCESSING+METHOD%2C+COMPUTER+PROGRAM+AND+SYSTEM+%28ANALYZING+DUPLICATED+DATA+BLOCKS+ASSOCIATED+WITH+UNSTRUCTURED+DOCUMENTS%29&rft.inventor=YANNICK+SAILLET&rft.inventor=MICHAEL+BAESSLER&rft.inventor=THOMAS+HAMPP-BAHNMUELLER&rft.date=2023-06-08&rft.externalDBID=A&rft.externalDocID=JP2023080027A