DATA CLASSIFICATION AND HIERARCHICAL CLUSTERING

Apparatus, systems, and methods can operate to provide efficient data clustering, data classification, and data compression. A method comprises training set of training instances can be processed to select a subset of size-1 patterns, initialize a weight of each size-1 pattern, include the size-1 pa...

Full description

Saved in:
Bibliographic Details
Main Authors MALIK, HASSAN HAIDER, KENDER, JOHN RONALD
Format Patent
LanguageEnglish
French
Published 18.12.2008
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:Apparatus, systems, and methods can operate to provide efficient data clustering, data classification, and data compression. A method comprises training set of training instances can be processed to select a subset of size-1 patterns, initialize a weight of each size-1 pattern, include the size-1 patterns in classes in a model associated with the training set, and then include a set of top-k size-2 patterns in a way that provides an effective balance between local, class, and global significance patterns. A method comprises processing a dataset to compute an overall significance value of each size-2 pattern in each instance in the dataset, sort the size-2 patterns, and select the top-k size-2 patterns to be represented in clusters, which can be refined into a clustered hierarchy. A method comprises creating an uncompressed bitmap, reordering the bitmap, and compressing the bitmap. Additional apparatus, systems, and methods are disclosed. L'invention concerne un appareil, des systèmes et des procédés qui peuvent fonctionner pour réaliser un groupement de données, une classification de données et une compression de données efficaces. Un procédé comprend l'apprentissage d'un ensemble d'instances d'apprentissage qui peuvent être traitées pour sélectionner un sous-ensemble de motifs de taille 1, initialiser un coefficient de pondération de chaque motif de taille 1, inclure les motifs de taille 1 dans des classes dans un modèle associé à l'ensemble d'apprentissage, et ensuite inclure un ensemble de k motifs de taille 2 supérieurs d'une manière qui permet d'obtenir un équilibre efficace entre des motifs d'importance locale, de classe et globale. Un procédé comprend le traitement d'un ensemble de données pour calculer une valeur d'importance globale de chaque motif de taille 2 dans chaque instance dans l'ensemble de données, trier les motifs de taille 2, et sélectionner les k motifs de taille 2 supérieurs à représenter dans des groupes, qui peuvent être affinés en une hiérarchie de groupes. Un procédé comprend la création d'une carte de bits non compressée, le réagencement de la carte de bits, et la compression de la carte de bits. D'autres appareil, systèmes et procédés sont présentés.
Bibliography:Application Number: WO2008US07308