DATENEXTRAKTIONSSYSTEM

Die vorliegende Erfindung betrifft die Verwaltung von Daten. Um Daten aus einer oder mehreren Tabellendatendateien effektiv und zuverlässig zu extrahieren, wird ein Datenextraktionssystem zum Extrahieren von Daten aus einer oder mehreren Tabellendatendateien bereitgestellt. Das System umfasst eine B...

Full description

Saved in:
Bibliographic Details
Main Authors Gobin, Oliver Christian, Kiefer, Kevin, Risse, Constanze, Bean, Jessica Eleanor, Jochum, Mara Nikola, Niederle, Astrid Elisa, Deshmukh, Prashant, Sittel, Florian, Battagliarin, Glauco
Format Patent
LanguageGerman
Published 05.01.2022
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:Die vorliegende Erfindung betrifft die Verwaltung von Daten. Um Daten aus einer oder mehreren Tabellendatendateien effektiv und zuverlässig zu extrahieren, wird ein Datenextraktionssystem zum Extrahieren von Daten aus einer oder mehreren Tabellendatendateien bereitgestellt. Das System umfasst eine Benutzerschnittstelle, die dazu angepasst ist, einem oder mehreren Benutzern zu erleichtern, eine oder mehrere Tabellendatendateien zu übermitteln, wobei jede Tabellendatendatei mindestens eine Tabelle umfasst. Gemäß der ersten Alternative ist die Benutzerschnittstelle dazu ausgelegt, eine benutzerdefinierte Vorlage zu empfangen, die mindestens eine Zieltabelle umfasst. Das Datenextraktionssystem umfasst ferner ein Datenextraktionsmodul oder einen Validator. Das Datenextraktionsmodul umfasst einen schemabasierten Abgleicher und einen instanzbasierten Abgleicher. Der schemabasierte Abgleicher ist dazu ausgelegt, zielschemabasierte Informationen der mindestens einen Zieltabelle zu identifizieren und mindestens eine semantisch übereinstimmende Kandidatentabelle aus der einen oder den mehreren übermittelten Tabellendatendateien basierend auf den zielschemabasierten Informationen auszuwählen. Der instanzbasierte Abgleicher ist dazu ausgelegt, zielinstanzbasierte Informationen der mindestens einen Zieltabelle zu identifizieren und Daten aus der mindestens einen semantisch übereinstimmenden Kandidatentabelle basierend auf den zielinstanzbasierten Informationen zu extrahieren. Gemäß der zweiten Alternative ist die Benutzerschnittstelle dazu ausgelegt, eine Validierungsvorlage zu empfangen. Das Datenextraktionssystem umfasst ferner einen Validator, der dazu ausgelegt ist, eine Validierungsvorlage auf mindestens eine Tabelle der einen oder der mehreren Tabellendatendateien anzuwenden, um ein Tabellenformat der mindestens einen Tabelle basierend auf Regeln für definierte Markierungen, Metadaten und/oder Daten, die durch die Validierungsvorlage definiert werden, zu validieren. The present invention relates to data management. In order to extract data from one or more tabular data files effectively and reliably, a data extraction system is provided for extracting data from one or more tabular data files. The system comprises a user interface adapted for facilitating one or more users to submit one or more tabular data files, each tabular data file comprising at least one table, and a user-defined template comprising at least one target table. The data extraction system further comprises a data extraction module or a validator. The data extraction module comprises a schema-level matcher and an instance-level matcher. The schema-level matcher is configured to identify target schema-level information of the at least one target table, and to select at least one semantically matched candidate table from the submitted one or more tabular data files based on the target schema-level information. The instance-level matcher is configured to identify target instance-level information of the at least one target table and to extract data from the at least one semantically matched candidate table based on the target instance-level information. The validator is configured to apply a validator template to at least one table of the one or more tabular data files to validate a table format of the at least one table based on rules for markers, metadata and/or data defined by the validator template.
Bibliography:Application Number: DE20201101874T