講演名 2024-03-03
トピックモデルにおけるトピック数の異なる多様な解の可視化
内山 俊郎(北海道情報大), 甫喜本 司(北海道情報大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 潜在的ディリクレ配分法は,文書などのデータ解析に有用なトピックモデルとして知られる.階層的トピックモデルは,トピックに階層構造(木構造)があるとする方法であり,トピック数が異なる各段階でのトピックを知ることができ,文書集合に潜在するトピックを大局から詳細に至るまで網羅的に把握することが可能である.しかし,木構造はトピックを「1対多」で詳細なトピックへと分割する制約であるため,トピック数増加の影響が1つのトピックに閉じている.一般に,トピック数を増やすと複数のトピックに影響を与えると考えられ,この意味において可能性を狭めた分析になっている.そこで本研究では,この問題を解決するため,多様な解をトピック数横断で生成し,「多様な解の分析手法」を利用して互いに類似する解を結びつけるというアプローチにより,トピック数増加の影響を多面的に捉える分析方法の確立を目指す.提案手法と実験結果を示す.
抄録(英) The Latent Dirichlet analysis is known as a topic model that is usefulfor analyzing data such as documents. The hierarchical topic model is amethod that assumes that there is a hierarchical structure (treestructure) of topics, and it is possible to know the topics at eachstage where the number of topics differs, and to comprehensivelyunderstand the potential topics in a set of documents from the bigpicture to the details. However, because the tree structure is aconstraint that divides topics into detailed topics on a "one-to-many" basis, the effect of increasing the number of topics is closed to asingle topic. In general, increasing the number of topics is consideredto affect multiple topics, and in this sense, the analysis narrows thepossibilities. To solve this problem, this study aims to establish ananalysis method that captures the impact of an increase in the number oftopics from multiple perspectives by generating a variety of solutionsacross the number of topics and linking solutions that are similar toeach other using the "analysis method for a diversity of solutions" approach. A proposal of the analysis method and experimental results arepresented.
キーワード(和) トピックモデル / 解の多様性 / トピック分布 / 異なるトピック数での分析 / 多次元尺度法
キーワード(英) topic model / diversity of solution / topic distribution / analysis with different number of topics / multidimensional scaling
資料番号 IBISML2023-44
発行日 2024-02-25 (IBISML)

研究会情報
研究会 PRMU / IBISML / IPSJ-CVIM
開催期間 2024/3/3(から2日開催)
開催地(和) 広島大学 東広島キャンパス
開催地(英) Hiroshima Univ. Higashi-Hiroshima campus
テーマ(和) 雑多なデータセットの有効活用 (PRMU/IPSJ-CVIM)、機械学習の理論と応用の広がり (IBISML)
テーマ(英)
委員長氏名(和) 柏野 邦夫(NTT) / 杉山 将(東大) / 日浦 慎作(兵庫県立大)
委員長氏名(英) Kunio Kashio(NTT) / Masashi Sugiyama(Univ. of Tokyo) / 日浦 慎作(兵庫県立大)
副委員長氏名(和) 舩冨 卓哉(奈良先端大) / 入江 豪(東京理科大) / 神嶌 敏弘(産総研) / 津田 宏治(東大)
副委員長氏名(英) Takuya Funatomi(NAIST) / Go Irie(Tokyo Univ. of Science) / Toshihiro Kamishima(AIST) / Koji Tsuda(Univ. of Tokyo)
幹事氏名(和) 井上 中順(東工大) / 川西 康友(理研) / 岩田 具治(NTT) / 中村 篤祥(北大) / 出口 大輔(名大) / 高橋 康輔(ウミトロン) / 田中 賢一郎(立命館大) / 波部 斉(近畿大) / 槇原 靖(阪大) / 浦西 友樹(阪大)
幹事氏名(英) Nakamasa Inoue(Tokyo Inst. of Tech.) / Yasutomo Kawanishi(Riken) / Tomoharu Iwata(NTT) / Atsuyoshi Nakamura(Hokkaido Univ.) / 出口 大輔(名大) / 高橋 康輔(ウミトロン) / 田中 賢一郎(立命館大) / 波部 斉(近畿大) / 槇原 靖(阪大) / 浦西 友樹(阪大)
幹事補佐氏名(和) 下西 慶(京大) / 原 健翔(産総研) / 河原 吉伸(阪大) / 鈴木 大慈(東大)
幹事補佐氏名(英) Kei Shimonishi(Kyoto Univ.) / Kensho Hara(AIST) / Yoshinobu Kawahara(Osaka Univ.) / Taiji Suzuki(Univ.of Tokyo)

講演論文情報詳細
申込み研究会 Technical Committee on Pattern Recognition and Media Understanding / Technical Committee on Information-Based Induction Sciences and Machine Learning / Special Interest Group on Computer Vision and Image Media
本文の言語 JPN
タイトル(和) トピックモデルにおけるトピック数の異なる多様な解の可視化
サブタイトル(和)
タイトル(英) Visualization of diverse solutions with different number of topics in topic models
サブタイトル(和)
キーワード(1)(和/英) トピックモデル / topic model
キーワード(2)(和/英) 解の多様性 / diversity of solution
キーワード(3)(和/英) トピック分布 / topic distribution
キーワード(4)(和/英) 異なるトピック数での分析 / analysis with different number of topics
キーワード(5)(和/英) 多次元尺度法 / multidimensional scaling
第 1 著者 氏名(和/英) 内山 俊郎 / Toshio Uchiyama
第 1 著者 所属(和/英) 北海道情報大学(略称:北海道情報大)
Hokkaido Information University(略称:HIU)
第 2 著者 氏名(和/英) 甫喜本 司 / Tsukasa Hokimoto
第 2 著者 所属(和/英) 北海道情報大学(略称:北海道情報大)
Hokkaido Information University(略称:HIU)
発表年月日 2024-03-03
資料番号 IBISML2023-44
巻番号(vol) vol.123
号番号(no) IBISML-410
ページ範囲 pp.29-35(IBISML),
ページ数 7
発行日 2024-02-25 (IBISML)