講演名 | 2011-10-10 連続型HMMを用いたテキストセグメンテーション(基礎技術,自然言語処理) 但馬 康宏, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 連続型HMMによるテキストセグメンテーション手法を示す.一般にHMMによるテキストセグメンテーションは,1つの単語を出力記号とし,学習データを用いて状態遷移および各状態における出力記号の確率分布を求める.これに対し本研究では,テキストデータ内のある一定の範囲をテキスト窓とし,テキスト窓内の単語の出現数をベクトルとして出力記号とする.このようなHMMを用いてテキストセグメンテーションを行い,ウェブのニュース記事が複数結合されたテキストデータに対して評価実験を行った.その結果,ランダムに話題が移り変わるようなテキストデータに対して,従来手法よりも高い性能を得ることができた. |
抄録(英) | A text segmentation method via continuous HMM is shown in this paper. In general, an HMM has output symbols of vocublary, i.e. one word will be output by one step. In contrast, our method uses an HMM whose output symbol is a vector of word counts. The vector corresponds to a sliding window on a text. We evaluate this HMM, then we confirmed that our method has higher performance than a general case HMM. |
キーワード(和) | テキストセグメンテーション / n-gram / 隠れマルコフモデル |
キーワード(英) | Text segmentation / n-gram / Hidden Markov Model |
資料番号 | TL2011-30,NLC2011-27 |
発行日 |
研究会情報 | |
研究会 | NLC |
---|---|
開催期間 | 2011/10/3(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Natural Language Understanding and Models of Communication (NLC) |
---|---|
本文の言語 | JPN |
タイトル(和) | 連続型HMMを用いたテキストセグメンテーション(基礎技術,自然言語処理) |
サブタイトル(和) | |
タイトル(英) | A text segmentation method via continuous HMM |
サブタイトル(和) | |
キーワード(1)(和/英) | テキストセグメンテーション / Text segmentation |
キーワード(2)(和/英) | n-gram / n-gram |
キーワード(3)(和/英) | 隠れマルコフモデル / Hidden Markov Model |
第 1 著者 氏名(和/英) | 但馬 康宏 / Yasuhiro TAJIMA |
第 1 著者 所属(和/英) | 岡山県立大学情報システム工学科 Okayama Prefectural University, Department of systems engineering |
発表年月日 | 2011-10-10 |
資料番号 | TL2011-30,NLC2011-27 |
巻番号(vol) | vol.111 |
号番号(no) | 228 |
ページ範囲 | pp.- |
ページ数 | 5 |
発行日 |