講演名 2005-09-21
文書拡張によるキーワード抽出(一般セッション, ロボットとの相互作用のための言語処理・パターン認識・メディア理解)
長町 健太, 武田 善行, 梅村 恭司,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) キーワード抽出は情報検索に有用な技術の一つである.その中でも辞書を用いないでキーワード抽出を行う手法がある.この方法では反復度と呼ばれる統計量が用いられる.この方法には, 文書長が短い場合に反復度の推定がうまく行えず, キーワード抽出精度が低下するという問題がある.そこで本研究では, 類似した文書を結合することで長く拡張した文書を元に反復度の推定を行った.従来法との比較実験の結果, 精度改善まではいたらなかったが, 従来法に比べてキーワードの再現率が上がり, また, 非一般的な分野に特化したキーワードが抽出できるという新たな一面を発見した.結論として, キーワード抽出における文書拡張の有用性を報告する.
抄録(英) Keyword extraction is one of the technology useful for information retrieval. Currently, there is keyword extraction method using Adaptaion. This method has problem that its precision becomes low when the document length in a corpus is short. In such situation, we cannot estimate Adaptation well. In this research, we have tried to make documents long virtually using a information retrieval system. Then, we investigated whether the precision of keyword extraction would be improved by document expansion. But the improvement is not so large. We discovered new one side that the key word that specialized in non-general field can extract. Therefore, it could conclude that we were able to show the utility of the document expansion.
キーワード(和) 文書拡張 / フレーズ / 複合語 / 反復度 / キーワード抽出
キーワード(英) Document expansion / Phrase / Compound word / Adaptaion / Keyword extraction
資料番号 NLC2005-27,PRMU2005-54
発行日

研究会情報
研究会 NLC
開催期間 2005/9/14(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 文書拡張によるキーワード抽出(一般セッション, ロボットとの相互作用のための言語処理・パターン認識・メディア理解)
サブタイトル(和)
タイトル(英) A keyword extraction method by document expansion
サブタイトル(和)
キーワード(1)(和/英) 文書拡張 / Document expansion
キーワード(2)(和/英) フレーズ / Phrase
キーワード(3)(和/英) 複合語 / Compound word
キーワード(4)(和/英) 反復度 / Adaptaion
キーワード(5)(和/英) キーワード抽出 / Keyword extraction
第 1 著者 氏名(和/英) 長町 健太 / Kenta NAGAMACHI
第 1 著者 所属(和/英) 豊橋技術科学大学
Toyohashi University of Technology
第 2 著者 氏名(和/英) 武田 善行 / Yoshiyuki TAKEDA
第 2 著者 所属(和/英) 豊橋技術科学大学
Toyohashi University of Technology
第 3 著者 氏名(和/英) 梅村 恭司 / Kyoji UMEMURA
第 3 著者 所属(和/英) 豊橋技術科学大学
Toyohashi University of Technology
発表年月日 2005-09-21
資料番号 NLC2005-27,PRMU2005-54
巻番号(vol) vol.105
号番号(no) 299
ページ範囲 pp.-
ページ数 6
発行日