SCALABLE ANALYSIS PLATFORM FOR SEMI-STRUCTURED DATA

A data transformation system includes a schema inference module and an ex-port module. The schema inference module is configured to dynamically create a cumulative schema for objects retrieved from a first data source. Each of the retrieved objects includes (i) data and (ii) metadata describing the...

Full description

Saved in:
Bibliographic Details
Main Authors MEYER, KEVIN R, TSIROGIANNIS, DIMITRIOS, BINKERT, NATHAN A, SOWELL, BENJAMIN A, KAPLAN, BRYAN D, SHAH, MEHUL A, HARIZOPOULOS, STAVROS
Format Patent
LanguageEnglish
French
Published 06.11.2014
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:A data transformation system includes a schema inference module and an ex-port module. The schema inference module is configured to dynamically create a cumulative schema for objects retrieved from a first data source. Each of the retrieved objects includes (i) data and (ii) metadata describing the data. Dynami-cally creating the cumulative schema includes, for each object of the retrieved objects, (i) inferring a schema from the object and (ii) selectively updating the cumulative schema to describe the object according to the inferred schema. The export module is configured to output the data of the retrieved objects to a data destination system according to the cumulative schema. L'invention concerne un système de transformation de données qui comprend un module d'inférence de schéma et un module d'exportation. Le module d'inférence de schéma est configuré pour créer dynamiquement un schéma cumulatif pour des objets récupérés à partir d'une première source de données. Chacun des objets récupérés comprend (i) des données et (ii) des métadonnées décrivant des données. La création dynamique du schéma cumulatif consiste, pour chaque objet des objets récupérés, (i) à inférer un schéma à partir de l'objet et (ii) à sélectivement mettre à jour le schéma cumulatif afin de décrire l'objet conformément au schéma inféré. Le module d'exportation est configuré pour délivrer les données des objets récupérés à un système de destination de données conformément au schéma cumulatif.
Bibliography:Application Number: WO2014US29484