APPARATUS, METHOD AND PROGRAM FOR DOCUMENT CLASSIFICATION

A feature word extraction means (201) extracts feature words from a document included in a document set. A feature word clustering means (202) clusters the extracted feature words into a plurality of clusters that constitute subtrees of a thesaurus having a tree structure, such that the difference b...

Full description

Saved in:
Bibliographic Details
Main Authors NAKANO, WATARU, MANABE, TOSHIHIKO, INABA, MASUMI, KOKUBU, TOMOHARU
Format Patent
LanguageEnglish
French
Japanese
Published 21.03.2013
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:A feature word extraction means (201) extracts feature words from a document included in a document set. A feature word clustering means (202) clusters the extracted feature words into a plurality of clusters that constitute subtrees of a thesaurus having a tree structure, such that the difference between the number of documents wherein feature words belonging to one cluster appear and the number of documents wherein feature words belonging to other clusters appear is not greater than a predetermined reference value. A document classification means (203) classifies the document included in the document set into clusters to which the feature words appearing in the document belong. A classification label granting means (204) grants, to each of the plurality of clusters, a classification label that is a word representing the feature words belonging to the cluster. A presentation means (302) presents the result of the classification of the documents, in association with the classification labels granted to the classified clusters. Selon l'invention, un moyen d'extraction de mot caractéristique (201) extrait des mots caractéristiques à partir d'un document inclus dans un ensemble de documents. Un moyen de groupement de mots caractéristiques (202) groupe les mots caractéristiques extraits en une pluralité de groupes qui constituent des sous-arbres d'un thésaurus ayant une structure arborescente, de telle sorte que la différence entre le nombre de documents dans lesquels des mots caractéristiques appartenant à un groupe apparaissent et le nombre de documents dans lesquels des mots caractéristiques appartenant à d'autres groupes apparaissent n'est pas supérieure à une valeur de référence prédéterminée. Un moyen de classification de documents (203) classe le document inclus dans l'ensemble de documents dans des groupes auxquels les mots caractéristiques apparaissant dans le document appartiennent. Un moyen d'octroi d'étiquette de classification (204) octroie, à chacun de la pluralité de groupes, une étiquette de classification qui est un mot représentant les mots caractéristiques appartenant au groupe. Un moyen de présentation (302) présente le résultat de la classification des documents, en association avec les étiquettes de classification octroyées aux groupes classés.
Bibliography:Application Number: WO2012JP66184