講演名 2011-10-10
連続型HMMを用いたテキストセグメンテーション(基礎技術,自然言語処理)
但馬 康宏,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 連続型HMMによるテキストセグメンテーション手法を示す.一般にHMMによるテキストセグメンテーションは,1つの単語を出力記号とし,学習データを用いて状態遷移および各状態における出力記号の確率分布を求める.これに対し本研究では,テキストデータ内のある一定の範囲をテキスト窓とし,テキスト窓内の単語の出現数をベクトルとして出力記号とする.このようなHMMを用いてテキストセグメンテーションを行い,ウェブのニュース記事が複数結合されたテキストデータに対して評価実験を行った.その結果,ランダムに話題が移り変わるようなテキストデータに対して,従来手法よりも高い性能を得ることができた.
抄録(英) A text segmentation method via continuous HMM is shown in this paper. In general, an HMM has output symbols of vocublary, i.e. one word will be output by one step. In contrast, our method uses an HMM whose output symbol is a vector of word counts. The vector corresponds to a sliding window on a text. We evaluate this HMM, then we confirmed that our method has higher performance than a general case HMM.
キーワード(和) テキストセグメンテーション / n-gram / 隠れマルコフモデル
キーワード(英) Text segmentation / n-gram / Hidden Markov Model
資料番号 TL2011-30,NLC2011-27
発行日

研究会情報
研究会 NLC
開催期間 2011/10/3(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 連続型HMMを用いたテキストセグメンテーション(基礎技術,自然言語処理)
サブタイトル(和)
タイトル(英) A text segmentation method via continuous HMM
サブタイトル(和)
キーワード(1)(和/英) テキストセグメンテーション / Text segmentation
キーワード(2)(和/英) n-gram / n-gram
キーワード(3)(和/英) 隠れマルコフモデル / Hidden Markov Model
第 1 著者 氏名(和/英) 但馬 康宏 / Yasuhiro TAJIMA
第 1 著者 所属(和/英) 岡山県立大学情報システム工学科
Okayama Prefectural University, Department of systems engineering
発表年月日 2011-10-10
資料番号 TL2011-30,NLC2011-27
巻番号(vol) vol.111
号番号(no) 228
ページ範囲 pp.-
ページ数 5
発行日