講演名 | 2000/5/22 時間推移を考慮した単語の重要度決定手法 岡田 真, 西村 直剛, 獅々堀 正幹, 青江 順一, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 近年, 大量の電子化文書の普及により類似文書検索手法への要求が高まっている.類似文書検索では文書館の類似度を判別する際, 入力文書とデータベースの文書から抽出された単語が用いられる.文書中の単語の出現頻度は時間経過に伴い変動する場合がある.単語の頻度分布から確認された特徴を属性として定義し, その属性をコーパスから決定木に学習させて, 単語の現在の重要性を推定する.そして毎日新聞のプロ野球に関する記事から抽出した単語を決定木で分類し, 属性の有効性を確認した.また, 決定木の学習用データのサンプリング手法とその改善法について考察し, 有効な結果を得た. |
抄録(英) | In order to evaluate a similarity between two texts, a similar text retrieval system compares words that extract from texts. However, the words in the texts change as a time transition. Therefore, this paper explains how to decide time stability of words automatically by using a decision tree algorithm (C4.5). In this paper, we define five attribute from the distribution map of word frequency. In evaluation, we used the words that extracted from reports about professional baseball of Mainichi Shinbun Newspaper (1994-1998), and it is confirmed that the defined attributes are effective for deciding time stability of words automatically. |
キーワード(和) | 単語の安定性 / 類似文書検索 / 決定木 / サンプリング / 毎日新聞 |
キーワード(英) | time stability of words / similar text retrieval / decision tree / Mainichi Shinbun Newspaper |
資料番号 | NLC2000-1 |
発行日 |
研究会情報 | |
研究会 | NLC |
---|---|
開催期間 | 2000/5/22(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Natural Language Understanding and Models of Communication (NLC) |
---|---|
本文の言語 | JPN |
タイトル(和) | 時間推移を考慮した単語の重要度決定手法 |
サブタイトル(和) | |
タイトル(英) | A Method Decide the Importance of Word Considering Time Transition |
サブタイトル(和) | |
キーワード(1)(和/英) | 単語の安定性 / time stability of words |
キーワード(2)(和/英) | 類似文書検索 / similar text retrieval |
キーワード(3)(和/英) | 決定木 / decision tree |
キーワード(4)(和/英) | サンプリング / Mainichi Shinbun Newspaper |
キーワード(5)(和/英) | 毎日新聞 |
第 1 著者 氏名(和/英) | 岡田 真 / Makoto Okada |
第 1 著者 所属(和/英) | 徳島大学工学部知能情報工学科 Department of Information Science & Inteligent Systems, Faculty of Engineering, Tokushima University |
第 2 著者 氏名(和/英) | 西村 直剛 / Naotaka Nishimura |
第 2 著者 所属(和/英) | 徳島大学工学部知能情報工学科 Department of Information Science & Inteligent Systems, Faculty of Engineering, Tokushima University |
第 3 著者 氏名(和/英) | 獅々堀 正幹 / Masami Shishibori |
第 3 著者 所属(和/英) | 徳島大学工学部知能情報工学科 Department of Information Science & Inteligent Systems, Faculty of Engineering, Tokushima University |
第 4 著者 氏名(和/英) | 青江 順一 / Jun-ichi Aoe |
第 4 著者 所属(和/英) | 徳島大学工学部知能情報工学科 Department of Information Science & Inteligent Systems, Faculty of Engineering, Tokushima University |
発表年月日 | 2000/5/22 |
資料番号 | NLC2000-1 |
巻番号(vol) | vol.100 |
号番号(no) | 100 |
ページ範囲 | pp.- |
ページ数 | 8 |
発行日 |