HIERARCHICAL IDENTIFICATION AND MAPPING OF DUPLICATE DATA IN A STORAGE SYSTEM

The technique introduced here includes a system and method for identifying and mapping duplicate data objects referenced by data objects. The technique illustratively utilizes a hierarchical tree of fingerprints for each data object to compare the data objects and identify duplicate data blocks refe...

Full description

Saved in:
Bibliographic Details
Main Authors YASA, GIRIDHAR APPAJI NAG, CHANDRASEKARASASTRY, NAGESH PANYAM
Format Patent
LanguageEnglish
French
Published 20.12.2012
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:The technique introduced here includes a system and method for identifying and mapping duplicate data objects referenced by data objects. The technique illustratively utilizes a hierarchical tree of fingerprints for each data object to compare the data objects and identify duplicate data blocks referenced by the data objects. A progressive comparison of the hierarchical trees starts from a top layer of the hierarchical trees and proceeds toward a base layer. Between the compared data objects (i.e., the compared hierarchical trees), the technique maps matching fingerprints only at the top-most layer of the hierarchical trees at which the fingerprints match. Lower layer matching fingerprints are neither compared nor mapped. Data blocks corresponding to the matching fingerprints are then deleted. Such an identification and mapping technique substantially reduces the amount of mapping metadata stored in data objects that have been subject to deduplication. L'invention concerne un système et un procédé permettant d'identifier et de mettre en correspondance des objets de données en double référencés par des objets de données. Selon la technique de l'invention, on utilise un arbre hiérarchique d'empreintes digitales pour chaque objet de données afin de comparer les objets de données et d'identifier des blocs de données en double référencés par les objets de données. Une comparaison progressive des arbres hiérarchiques part d'une couche supérieure des arbres hiérarchiques et se poursuit jusqu'à une couche de base. Entre les objets de données comparés (c.-à-d. les arbres hiérarchiques comparés), on met en correspondance des empreintes digitales appariées uniquement au niveau de la couche supérieure des arbres hiérarchiques au niveau de laquelle les empreintes digitales sont appariées. Les empreintes digitales appariées des couches inférieures ne sont ni comparées ni mises en correspondance. Les blocs de données correspondant aux empreintes digitales appariées sont ensuite effacés. Cette technique d'identification et de mise en correspondance permet de réduire sensiblement la quantité de métadonnées de mise en correspondance stockées dans des objets de données qui ont fait l'objet d'une déduplication.
Bibliography:Application Number: WO2012US41297