SYSTEM AND METHOD OF DETERMINING CONTENT SIMILARITY BY COMPARING SEMANTIC ENTITY ATTRIBUTES
A method for identifying documents that are similar in content to an input document includes receiving a request for identifying similar documents from among a plurality of candidate documents, retrieving document classification attributes for the input document and the candidate documents, where th...
Saved in:
Main Authors | , , |
---|---|
Format | Patent |
Language | English French |
Published |
06.07.2023
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | A method for identifying documents that are similar in content to an input document includes receiving a request for identifying similar documents from among a plurality of candidate documents, retrieving document classification attributes for the input document and the candidate documents, where the document classification attributes are document level attributes. The method also includes comparing the document classification attributes of the input document with classification attributes of the candidate documents to identify a subset of the candidate documents having matching document classification attributes, retrieving semantic entities from the input document and from candidate documents in the subset, pairwise comparing the semantic entity attribute of the input document with the semantic entity attribute of the candidate documents in the subset to identify semantic entities having matching semantic attributes, calculating a content similarity score between the semantic entity of the input document and the semantic entity of the candidate document in the subset, calculating a total similarity score for the candidate documents in the subset based on the content similarity score, a number of matching document classification attributes, and weight factors, and selecting similar documents from the subset based on the total similarity score.
Un procédé d'identification de documents qui sont similaires en contenu à un document d'entrée consiste à recevoir une demande d'identification de documents similaires parmi une pluralité de documents candidats, à extraire des attributs de classification de documents correspondant au document d'entrée et aux documents candidats, les attributs de classification de documents étant des attributs de niveau de document. Le procédé consiste également à comparer les attributs de classification de documents du document d'entrée aux attributs de classification des documents candidats afin d'identifier un sous-ensemble des documents candidats présentant des attributs de classification de documents correspondants, à extraire des entités sémantiques du document d'entrée et des documents candidats dans le sous-ensemble, à comparer par paire l'attribut d'entité sémantique du document d'entrée à l'attribut d'entité sémantique des documents candidats dans le sous-ensemble afin d'identifier des entités sémantiques présentant des attributs sémantiques correspondants, à calculer un score de similarité de contenu entre l'entité sémantique du document d'entrée et l'entité sémantique du document candidat dans le sous-ensemble, à calculer un score de similarité total correspondant aux documents candidats dans le sous-ensemble sur la base du score de similarité de contenu, d'un nombre d'attributs de classification de documents correspondants, et de facteurs de pondération, et à sélectionner des documents similaires dans le sous-ensemble sur la base du score de similarité total. |
---|---|
Bibliography: | Application Number: WO2022US47341 |