大会名称
2009年 情報科学技術フォーラム(FIT)
大会コ-ド
F
開催年
2009
発行日
2009/8/20
セッション番号
5D
セッション名
情報抽出とクラスタリング
講演日
2009/09/03
講演場所(会議室等)
D会場(9号館1F 914教室)
講演番号
D-021
タイトル
遺伝的プログラミングを用いたキーワード抽出尺度の探索と進化
著者名
冨坂 亮太相澤 彰子
キーワード
キーワード抽出, 遺伝的プログラミング, 機械学習
抄録
Web の発達により、現在私たちは膨大な文書資源を無料で瞬時に利用できる状況になってきた。しかし、これらの膨大な文書から、本当に自分が欲しい情報のみを選ぶのは極めて困難なことである。そのような文書資源から重要な語、すなわちキーワードを自動的に抽出できたなら、ユーザーの文書選びの負担を軽減することが可能である。
これまでにも、いろいろなキーワード抽出方法が考えられてきた。TF-IDF法などの単語の特徴量を組み合わせた尺度を用いる方法などが、有名なキーワード抽出方法だが、これらの方法は、ある文書群では威力を発揮するが、別の文書群では威力を発揮できず、その文書群に見合った尺度を考えてやらねばならないといった欠点がある。
本論文では、遺伝的アルゴリズムを用いて、用意された文書群において最適なキーワード抽出の尺度の探索方法を提案するとともに、そうして得られた尺度を用いたキーワード抽出の精度を、TF-IDF や SVM による機械学習によるキーワード抽出の精度と比べた結果を提示する。
本文pdf
PDF download (384.2KB)