講演名 1997/7/24
シソーラスと統計情報を統合した単語の類似度計算について
藤井 敦, 徳永 健伸, 田中 穂積,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本論文は、単語類似度の計算に関する新しい手法を提案する。本手法の特長は、従来提案されている二つの手法の利点を統合する点にある。従来の手法は、人間が作成したシソーラスにおける単語間のパスの長さに基づく手法、単語の共起頻度に基づく統計的手法に分類される。前者は、シソーラスのパスをたどることで類似度を計算できるので計算コストが安いという利点を持つ。他方において、後者は数学理論を背景にしているという利点を持つ。本手法は、統計的に計算された単語類似度を反映するような重みをシソーラスのパスに割り当てる。そこで、単語間のパスをたどることで、統計的単語類似度を近似することができる。実験を通して、本手法は、統計的単語類似度の大小関係を70%以上の精度で再現できることが確認された。
抄録(英) This paper proposes a new approach for word similarity measurement. The statistics-based computation of word similarity has been popular in recent research, but is associated with a significant computational cost. On the other hand, the use of hand-crafted thesauri as semantic resources is simple to implement, but lacks mathematical rigor. To integrate the advantages of these two approaches, we aim at calculating a statistical weight for each branch of a thesaurus, so that we can measure word similarity simply based on the length of the path between two words in the thesaurus. Our experiment on Japanese nouns shows that this framework upheld the inequality of statistics-based word similarity with an accuracy of more than 70%. We also report on the effectivity of our framework in the task of word sense disambiguation.
キーワード(和) 単語類似度 / シソーラス / 統計的手法 / 多義性解消 / コーパス
キーワード(英) word similarity / thesaurus / statistical model / word sense disambiguation / corpus
資料番号 NLC97-15
発行日

研究会情報
研究会 NLC
開催期間 1997/7/24(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 ENG
タイトル(和) シソーラスと統計情報を統合した単語の類似度計算について
サブタイトル(和)
タイトル(英) A Hybrid Approach for Measuring Word Similarity
サブタイトル(和)
キーワード(1)(和/英) 単語類似度 / word similarity
キーワード(2)(和/英) シソーラス / thesaurus
キーワード(3)(和/英) 統計的手法 / statistical model
キーワード(4)(和/英) 多義性解消 / word sense disambiguation
キーワード(5)(和/英) コーパス / corpus
第 1 著者 氏名(和/英) 藤井 敦 / Atsushi Fujii
第 1 著者 所属(和/英) 東京工業大学大学院情報理工学研究科
Department of Computer Science Tokyo Institute of Technology
第 2 著者 氏名(和/英) 徳永 健伸 / Takenobu Tokunaga
第 2 著者 所属(和/英) 東京工業大学大学院情報理工学研究科
Department of Computer Science Tokyo Institute of Technology
第 3 著者 氏名(和/英) 田中 穂積 / Hozumi Tanaka
第 3 著者 所属(和/英) 東京工業大学大学院情報理工学研究科
Department of Computer Science Tokyo Institute of Technology
発表年月日 1997/7/24
資料番号 NLC97-15
巻番号(vol) vol.97
号番号(no) 199
ページ範囲 pp.-
ページ数 6
発行日