CHAINING BLOOM FILTERS TO ESTIMATE THE NUMBER OF KEYS WITH LOW FREQUENCIES IN A DATASET

Techniques are described for generating an approximate frequency histogram using a series of Bloom filters (BF). For example, to estimate the f1 and f2 cardinalities in a dataset, an ordered chain of three BFs is established ("BF1", "BF2", and "BF3"). An insertion opera...

Full description

Saved in:
Bibliographic Details
Main Authors KOCBERBER, Onur, KARNAGEL, Tomas, AGARWAL, Nipun, BUDALAKOTI, Suratna, WOOD, Alan
Format Patent
LanguageEnglish
French
Published 02.02.2023
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:Techniques are described for generating an approximate frequency histogram using a series of Bloom filters (BF). For example, to estimate the f1 and f2 cardinalities in a dataset, an ordered chain of three BFs is established ("BF1", "BF2", and "BF3"). An insertion operation is performed for each datum in the dataset, whereby the BFs are tested in order (starting at BF1) for the datum. If the datum is represented in a currently-tested BF, the subsequent BF in the chain is tested for the datum. If the datum is not represented in the currently-tested BF, the datum is added to the BF, a counter for the BF is incremented, and the insertion operation for the current datum ends. To estimate the cardinality of f1-values in the dataset, the BF2-counter is subtracted from the BF1-counter. Similarly, to estimate the cardinality of f2-values in the dataset, the BF3-counter is subtracted from the BF2-counter. L'invention concerne des techniques destinées à générer un histogramme de fréquences approximatif à l'aide d'une série de filtres de Bloom (BF). Par exemple, pour estimer les cardinalités f1 et f2 dans un ensemble de données, une chaîne ordonnée de trois BF est établie (« BF1 », « BF2 » et « BF3 »). Une opération d'insertion est effectuée pour chaque donnée de l'ensemble de données, moyennant quoi les BF sont testés dans l'ordre (à partir de BF1) pour la donnée. Si la donnée est représentée dans un BF actuellement testé, le BF suivant de la chaîne est testé pour la donnée. Si la donnée n'est pas représentée dans le BF actuellement testé, la donnée est ajoutée au BF, un compteur pour le BF est incrémenté, et l'opération d'insertion pour la donnée actuelle se termine. Pour estimer la cardinalité des valeurs f1 dans l'ensemble de données, le compteur BF2 est soustrait du compteur BF1. De même, pour estimer la cardinalité des valeurs f2 dans l'ensemble de données, le compteur BF3 est soustrait du compteur BF2.
Bibliography:Application Number: WO2022US22206