変数サブセットでのオブジェクト間距離と位相的データ解析による医薬品マッピング
分類や可視化は, ビッグデータ解析の初手として重要であり, クラスタリングはその代表的な手法である. しかしながら, 従来の一般的なクラスタリング手法では, 全ての変数 (属性) 情報を均等に扱うため, ノイズに攪乱され, 真の構造が見えづらい. さらにデータの特徴を空間的に捉えることと共に, データの更新と増加に対してロバストに可視化することも課題である. これらの課題を解決するために, 変数情報をサブセットで捉えて距離行列を算出するCOSA (Clustering Objects on Subsets of Attributes) アルゴリズム, そして, 複雑なデータ構造を形状として可視...
Saved in:
Published in | 計算機統計学 Vol. 35; no. 2; pp. 49 - 67 |
---|---|
Main Authors | , , , |
Format | Journal Article |
Language | Japanese |
Published |
日本計算機統計学会
2022
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | 分類や可視化は, ビッグデータ解析の初手として重要であり, クラスタリングはその代表的な手法である. しかしながら, 従来の一般的なクラスタリング手法では, 全ての変数 (属性) 情報を均等に扱うため, ノイズに攪乱され, 真の構造が見えづらい. さらにデータの特徴を空間的に捉えることと共に, データの更新と増加に対してロバストに可視化することも課題である. これらの課題を解決するために, 変数情報をサブセットで捉えて距離行列を算出するCOSA (Clustering Objects on Subsets of Attributes) アルゴリズム, そして, 複雑なデータ構造を形状として可視化する位相的データ解析マッパー (TDA Mapper : Topological Data Analysis Mapper) を組み合わせた手法を提案する. さらに, アヤメデータをベースにした拡張データでその有効性を検証し, 医薬品データのマッピングへの応用を提案する. |
---|---|
ISSN: | 0914-8930 2189-9789 |
DOI: | 10.20551/jscswabun.35.2_49 |