REVEALING CONTENT REUSE USING COARSE ANALYSIS
Systems and methods for managing content provenance are provided. A network system accesses a plurality of documents. The plurality of documents is then hashed to identify one or more content features within each of the documents. In one embodiment, the hash is a MinHash. The network system compares...
Saved in:
Main Authors | , , , |
---|---|
Format | Patent |
Language | English French |
Published |
07.01.2021
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | Systems and methods for managing content provenance are provided. A network system accesses a plurality of documents. The plurality of documents is then hashed to identify one or more content features within each of the documents. In one embodiment, the hash is a MinHash. The network system compares the content features of each of the plurality of documents to determine a similarity score between each of the plurality of documents. In one embodiment, the similarly score is a Jaccard score. The network system then clusters the plurality of documents into one or more clusters based on the similarity score of each of the plurality of documents. In one embodiment, the clustering is performed using DBSCAN. DBSCAN can be iteratively performed with decreasing epsilon values to derive clusters of related but relatively dissimilar documents. The clustering information associated with the clusters are stored for use during runtime.
L'invention concerne des systèmes et des procédés pour gérer la provenance d'un contenu. Un système de réseau accède à une pluralité de documents. La pluralité de documents est ensuite hachée pour identifier une ou plusieurs caractéristiques de contenu à l'intérieur de chacun des documents. Dans un mode de réalisation, le hachage est un MinHash. Le système de réseau compare les caractéristiques de contenu de chacun de la pluralité de documents pour déterminer un score de similitude entre chacun de la pluralité de documents. Dans un mode de réalisation, le score de similitude est un score de Jaccard. Le système de réseau groupe ensuite la pluralité de documents en une ou plusieurs grappes sur la base du score de similitude de chacun de la pluralité de documents. Dans un mode de réalisation, la mise en grappe est réalisée à l'aide de l'algorithme DBSCAN. Le DBSCAN peut être effectué de manière itérative avec des valeurs epsilon décroissantes afin de déduire des grappes de documents apparentés mais relativement dissemblables. Les informations de mise en grappe associées aux grappes sont stockées pour être utilisées lors de l'exécution. |
---|---|
Bibliography: | Application Number: WO2020US33895 |