講演名 2011-07-08
制約付きブートストラッピング法による特徴語抽出について(検索,第1回テキストマイニング・シンポジウム)
廣川 佐千男,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) Googleのランキング手法を文書と単語について応用したブートストラッピング法がある。単語と文書の重要度を相互に伝搬させ、大局的な重要度を求める。しかし、結果が検索語から乖離する「トピックドリフト」という問題があり、本質的な解決方法は知られていない。本稿では、単語集合と文書集合を相互に求める過程で、上位の単語に制約する方式を提案する。単語の出現パターンを限定するなどの従来手法と比べ、単純で一般的な方法である。倒産情報文書群を対象とした実験により、トピックドリフトを防ぎ、検索語に強く関連する倒産理由を抽出できることが確認できた。
抄録(英) The bootstrapping method is known as an application of the ranking technique of Google for documents and words. The technique calculates a importance of the word by propagating the score of the word and the document mutually. However, sometimes the result is far away from the query word. The problem is known as "Topic drift". This paper proposes the restriction to high-ranking words in the process of bootstrapping. The method is simpler than the technique so far and generalized method such as limiting the emerging pattern of the word. It is confirmed that the method was able to prevent the topic drift, and to extract the bankruptcy reason strongly related to the query word the real bankruptcy information documents.
キーワード(和) ブートストラップ / 特徴語抽出 / トピックドリフト / テキストマイニング / 倒産情報
キーワード(英) Bootstrap Method / Topic Drift / Feature Selection / Text Mining / Bankruptcy Information
資料番号 NLC2011-13
発行日

研究会情報
研究会 NLC
開催期間 2011/6/30(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 制約付きブートストラッピング法による特徴語抽出について(検索,第1回テキストマイニング・シンポジウム)
サブタイトル(和)
タイトル(英) Feature Extraction using Restricted Bootstrapping
サブタイトル(和)
キーワード(1)(和/英) ブートストラップ / Bootstrap Method
キーワード(2)(和/英) 特徴語抽出 / Topic Drift
キーワード(3)(和/英) トピックドリフト / Feature Selection
キーワード(4)(和/英) テキストマイニング / Text Mining
キーワード(5)(和/英) 倒産情報 / Bankruptcy Information
第 1 著者 氏名(和/英) 廣川 佐千男 / Sachio HIROKAWA
第 1 著者 所属(和/英) 九州大学
Kyushu University
発表年月日 2011-07-08
資料番号 NLC2011-13
巻番号(vol) vol.111
号番号(no) 119
ページ範囲 pp.-
ページ数 6
発行日