講演名 2008-06-19
ゼロサプレス型二分決定グラフによる圧縮と知識発見(テーマ,膨大なデータから学ぶもの)
倉井 龍太郎, 湊 真一, ツォイクマン トーマス,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究ではNormalized Compression Distance(NCD)とセロサプレス型BDD(ZBDD)を用いた,テキストの分類手法について提案する.NCDはコルモゴロフ複雑性を利用して定義される文字列同士の距離であるNormalized Information Distanceを近似したものである.NCDは一般的にgzip,bzip2といった既存の圧縮ソフトウェアを利用して計算される.対して本研究ではZBDDの持つアイテム組合せ集合を圧縮して保管する能力を利用してこのNCDを計算する方法を提案した.また,実験によりその能力を評価した.
抄録(英) In the present paper we propose a new method for clustering text data by using the Normalized Compression Distance and Zero-Suppressed BDDs. The Normalized Compression Distance can be considered as an approximation of the Normalized Information Distance which is defined by using Kolmogorov complexity. Standard string compressors such as gzip, bzip2 have been previously used to compute the Normalized Compression Distance. In contrast, we propose to use the ZBDD representation of item sets as a compressor for the item sets. We conducted experiments for clustering by using our methods. The results obtained show the usefulness of this approach.
キーワード(和) コルモゴロフ複雑性 / ゼロサプレス型BDD / クラスタリング / テキストマイニング / データ圧縮
キーワード(英) Kolmogorov complexity / Zero-Suppressed BDD / Clustering / Text mining / Data compression
資料番号 DE2008-10,PRMU2008-28
発行日

研究会情報
研究会 PRMU
開催期間 2008/6/12(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) ゼロサプレス型二分決定グラフによる圧縮と知識発見(テーマ,膨大なデータから学ぶもの)
サブタイトル(和)
タイトル(英) Knowledge Discovery and Compression by Using Zero-suppressed BDDs
サブタイトル(和)
キーワード(1)(和/英) コルモゴロフ複雑性 / Kolmogorov complexity
キーワード(2)(和/英) ゼロサプレス型BDD / Zero-Suppressed BDD
キーワード(3)(和/英) クラスタリング / Clustering
キーワード(4)(和/英) テキストマイニング / Text mining
キーワード(5)(和/英) データ圧縮 / Data compression
第 1 著者 氏名(和/英) 倉井 龍太郎 / Ryutaro KURAI
第 1 著者 所属(和/英) 北海道大学大学院情報科学研究科
Graduate School of Information Science and Technology, Hokkaido University
第 2 著者 氏名(和/英) 湊 真一 / Shin-ichi MINATO
第 2 著者 所属(和/英) 北海道大学大学院情報科学研究科
Graduate School of Information Science and Technology, Hokkaido University
第 3 著者 氏名(和/英) ツォイクマン トーマス / Thomas ZEUGMANN
第 3 著者 所属(和/英) 北海道大学大学院情報科学研究科
Graduate School of Information Science and Technology, Hokkaido University
発表年月日 2008-06-19
資料番号 DE2008-10,PRMU2008-28
巻番号(vol) vol.108
号番号(no) 94
ページ範囲 pp.-
ページ数 5
発行日