講演名 2012/6/22
時系列性を持つテキストのクラスタリング(テーマセッション,自然言語とパターン認識の境界)
浜田 玲子, 佐藤 真一,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 従来,多くのクラスタリング手法においてテキストはbag-of-words表現により表わされてきた.しかし,クローズドキャプションに含まれる各トピックは非常に短く,十分なbag-of-words情報を備えていないことが多い.そこで本研究では,ニュース映像に付随するクローズドキャプションに対する時間情報を利用したクラスタリング手法を提案する.我々はまず,1年分のニュース映像のクローズドキャプションに対して手動でのクラスタリングを行った.その結果,事件や災害等のカテゴリに含まれる各トピックが特殊なクラスタ分布および時間分布を示すことを明らかにした.この時間情報を利用し,単語ベクトル空間に時間情報を加えた距離を利用した教師なしクラスタリング手法を提案する.また階層的クラスタリングの段階に応じてクラスタ間距離の算出手法を変更することで,精度および速度の向上を図る.本稿では,手動による正解データとの比較実験により,これらの提案手法によってより高精度なクラスタが得られることを定量的に示した.
抄録(英) Most traditional text clustering methods are based on "bag of words" representation. However, since topics in closed captions are very short, it is difficult to supply enough "bag of words" information. In this paper, we present a new approach for topic clustering on closed captions. First, we clustered one-year closed captions manually, and discovered that topics categorized into "accidents" or "disasters" shows particular cluster- and time- distributions. Therefore we proposed tin-supervised clustering method using temporal information adding to conventional word vector distance. Furthermore, the accuracy was improved by changing the linkage criteria as the clustering process progresses. Our experimental results show the effectiveness of combination of time and word information.
キーワード(和) テキスト処理 / クラスタリング / 時系列性
キーワード(英) Text Processing / Clustering / Temporal Information
資料番号 PRMU2012-22,NLC2012-2
発行日

研究会情報
研究会 PRMU
開催期間 2012/6/22(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) 時系列性を持つテキストのクラスタリング(テーマセッション,自然言語とパターン認識の境界)
サブタイトル(和)
タイトル(英) Clustering of Text Documents with Time Series Features
サブタイトル(和)
キーワード(1)(和/英) テキスト処理 / Text Processing
キーワード(2)(和/英) クラスタリング / Clustering
キーワード(3)(和/英) 時系列性 / Temporal Information
第 1 著者 氏名(和/英) 浜田 玲子 / Reiko HAMADA
第 1 著者 所属(和/英) 国立情報学研究所
National Institute of Informatics
第 2 著者 氏名(和/英) 佐藤 真一 / Shin'ichi SATOH
第 2 著者 所属(和/英) 国立情報学研究所
National Institute of Informatics
発表年月日 2012/6/22
資料番号 PRMU2012-22,NLC2012-2
巻番号(vol) vol.112
号番号(no) 111
ページ範囲 pp.-
ページ数 6
発行日