METHOD AND SYSTEM FOR FACILITATING DISTRIBUTED ENTITY RESOLUTION

A method for providing data blocking to facilitate distributed entity resolution is disclosed. The method includes receiving data sets from a source, the data sets including records that correspond to an entity; grouping each of the records into a block based on a shared characteristic, the block in...

Full description

Saved in:
Bibliographic Details
Main Authors HARMON, Mike, LANSDELL, Matthew, RAPPA, Robert, DENG, Andrew, TRILNIK, Chen
Format Patent
LanguageEnglish
French
Published 13.07.2023
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:A method for providing data blocking to facilitate distributed entity resolution is disclosed. The method includes receiving data sets from a source, the data sets including records that correspond to an entity; grouping each of the records into a block based on a shared characteristic, the block including a blocking key; converting the block into a data file, the data file corresponding to a predetermined file format; partitioning the data file based on the corresponding blocking key; determining, via a worker node, a potential record pair by using the partitioned data file; and persisting the potential record pair. L'invention concerne un procédé destiné à permettre une mise en bloc de données pour faciliter une résolution d'entité distribuée. Le procédé comprend la réception d'ensembles de données provenant d'une source, les ensembles de données comprenant des enregistrements qui correspondent à une entité ; le groupement de chacun des enregistrements en un bloc sur la base d'une caractéristique partagée, le bloc comprenant une clé de mise en bloc ; la conversion du bloc en un fichier de données, le fichier de données correspondant à un format de fichier prédéterminé ; le partitionnement du fichier de données sur la base de la clé de mise en bloc correspondante ; la détermination, par l'intermédiaire d'un nœud travailleur, d'une paire d'enregistrements potentielle à l'aide du fichier de données partitionné ; et la sauvegarde persistante de la paire d'enregistrements potentielle.
Bibliography:Application Number: WO2022US52685