講演名 2012-11-07
入れ子階層ディリクレ過程による文書 : トピック同時クラスタリング(第15回情報論的学習理論ワークショップ)
富永 将至, 下坂 正倫, 福井 類, 佐藤 知正,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 自然言語のもつ潜在構造の把握のために,クラスタリングは広く用いられている.それらは主として情報検索の観点からの文書クラスタリング,知識発見の観点からのトピック解析が存在し,それぞれが別の形で発展してきた.本稿では任意の文書データから文書クラスタリングとトピック解析を同時に行うためのノンパラメトリック混合モデルを提案する.提案モデルはデータから文書クラスタ数とトピック数を自動で推定し,ギブスサンプリングや変分推論といった目的に応じた推論手法の導入が可能であり,またそれぞれのパラメタの更新は閉じた式で記述することができる.実在の文書データを用いた実験により,文書解析に新たな視点を与えるだけでなく,既存の文書生成モデルと比較してより高い性能を発揮することを示す.
抄録(英) In this paper, we propose a nonparametric Bayesian framework for natural language processing (NLP). Our framework is based on two applied Dirichlet processes (DP), hierarchical DP and nested DP, and simultaneously optimizes the document clusters and topics, estimating the number of both of them. We also provide closed-form posterior estimation methods for the framework with variational inference and blocked Gibbs sampler, so our method gives performance tradeoff according to the data size. Experimental results using real corpus data show that our framework gives another vision to the field of NLP and has higher prediction scores to existing nonparametric generative models.
キーワード(和) 文書クラスタリング / トピック解析 / ノンパラメトリックベイズ / 入れ子階層ディリクレ過程
キーワード(英) document clustering / topic analyses / nonparametric Bayes / nested-hierarchical Dirichlet processes
資料番号 IBISML2012-56
発行日

研究会情報
研究会 IBISML
開催期間 2012/10/31(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Information-Based Induction Sciences and Machine Learning (IBISML)
本文の言語 JPN
タイトル(和) 入れ子階層ディリクレ過程による文書 : トピック同時クラスタリング(第15回情報論的学習理論ワークショップ)
サブタイトル(和)
タイトル(英) Nested-Hierarchical Dirichlet Process Mixtures for Simultaneous Document-Topic Clustering
サブタイトル(和)
キーワード(1)(和/英) 文書クラスタリング / document clustering
キーワード(2)(和/英) トピック解析 / topic analyses
キーワード(3)(和/英) ノンパラメトリックベイズ / nonparametric Bayes
キーワード(4)(和/英) 入れ子階層ディリクレ過程 / nested-hierarchical Dirichlet processes
第 1 著者 氏名(和/英) 富永 将至 / Shoji TOMINAGA
第 1 著者 所属(和/英) 東京大学大学院情報理工学系研究科
Graduate School of Information Science and Engineering, the University of Tokyo
第 2 著者 氏名(和/英) 下坂 正倫 / Masamichi SHIMOSAKA
第 2 著者 所属(和/英) 東京大学大学院情報理工学系研究科
Graduate School of Information Science and Engineering, the University of Tokyo
第 3 著者 氏名(和/英) 福井 類 / Rui FUKUI
第 3 著者 所属(和/英) 東京大学大学院情報理工学系研究科
Graduate School of Information Science and Engineering, the University of Tokyo
第 4 著者 氏名(和/英) 佐藤 知正 / Tomomasa SATO
第 4 著者 所属(和/英) 東京大学大学院情報理工学系研究科
Graduate School of Information Science and Engineering, the University of Tokyo
発表年月日 2012-11-07
資料番号 IBISML2012-56
巻番号(vol) vol.112
号番号(no) 279
ページ範囲 pp.-
ページ数 8
発行日