講演名 2011-03-28
MPI/OpenMPハイブリッド並列化による潜在的ディリクレ配分法の効率的推定(統計的言語処理,テキスト・Webマイニング,一般)
東羅 翔太郎, 江口 浩二,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 近年,確率的トピックモデルがテキストデータをはじめとした多様なデータに適用され,有効性が示されている.トピックモデルの代表的なものに潜在的ディリクレ配分法(Latent Dirichlet Allocation: LDA)があげられる. LDAのパラメータ推定には変分ベイズ法やギブスサンプリング法などが用いられるが,大規模データに対して計算コストが要求されるため,効率化が望まれている.本稿では,LDAのためのギブスサンプリング法の効率化のため,並列計算技術を用いる.計算環境として,近年広く普及している分散・共有メモリ型(SMPクラスタ型)を想定する.従来のLDAのための並列推定手法はMPIまたはOpenMPがそれぞれ単独で用いられてきた.それに対してSMPクラスタ型並列計算機では,SMPノード間通信にメッセージパッシングを,SMPノード内並列化にループディレクティブを用いるハイブリッド並列プログラミングモデルが適している.そこで本稿では,LDAのためのMPI/OpenMPハイブリッド型並列推定手法を開発し,SMPクラスタ型計算機において高速化を実現した.
抄録(英) In recent years, probabilistic topic models have been applied to various kinds of data including text data, and its effectiveness has been demonstrated. Latent Dirichlet Allocation (LDA) is one of the well-known topic models. Variational Bayesian inference or Collapsed Gibbs sampling is often employed to estimate parameters in LDA; however, these inference methods require high computational cost for large-scale data. Therefore, high efficiency technology is needed for this purpose. In this paper, we make use of parallel computation technology for the sake of efficient Collapsed Gibbs sampling inference for LDA. We assume to use a shared memory cluster (SMP cluster), which is widely used in recent years. In prior work of efficient inference for LDA, MPI or OpenMP has been used alone. On the other hand, for a SMP cluster it is more suitable to adopt hybrid parallel programming models which use message passing for communication between SMP nodes and loop directives for parallelization within each SMP node. In this paper, we developed a MPI/OpenMP hybrid parallel inference method for LDA, and achieved remarkable speed-up under various settings of a SMP cluster.
キーワード(和) トピックモデル / 潜在的ディリクレ配分法 / ギブスサンプリング / 並列計算
キーワード(英) Topic models / Latent Dirichlet Allocation / Gibbs sampling / Parallel computation
資料番号 IBISML2010-118
発行日

研究会情報
研究会 IBISML
開催期間 2011/3/21(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Information-Based Induction Sciences and Machine Learning (IBISML)
本文の言語 JPN
タイトル(和) MPI/OpenMPハイブリッド並列化による潜在的ディリクレ配分法の効率的推定(統計的言語処理,テキスト・Webマイニング,一般)
サブタイトル(和)
タイトル(英) MPI/OpenMP Hybrid Parallel Inference for Latent Dirichlet Allocation
サブタイトル(和)
キーワード(1)(和/英) トピックモデル / Topic models
キーワード(2)(和/英) 潜在的ディリクレ配分法 / Latent Dirichlet Allocation
キーワード(3)(和/英) ギブスサンプリング / Gibbs sampling
キーワード(4)(和/英) 並列計算 / Parallel computation
第 1 著者 氏名(和/英) 東羅 翔太郎 / Shotaro TORA
第 1 著者 所属(和/英) 神戸大学工学部情報知能工学科
Department of Computer Science and Systems Engineering, Kobe University
第 2 著者 氏名(和/英) 江口 浩二 / Koji EGUCHI
第 2 著者 所属(和/英) 神戸大学大学院システム情報学研究科
Graduate School of System Informatics, Kobe University
発表年月日 2011-03-28
資料番号 IBISML2010-118
巻番号(vol) vol.110
号番号(no) 476
ページ範囲 pp.-
ページ数 8
発行日