講演名 2001/7/9
統計的モデルを用いた単語クラスタリング
川前 徳章, 青木 輝勝, 安田 浩,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 既存の検索システムはユーザのニーズそのものでなく、キーワードによって検索を行っている。検索にキーワードを利用するため、自然言語の持つ多様性によってユーザの検索が非効率になることがある。この問題の解決の一つにシソーラスがある。そこで本稿では分野と目的を特化したシソーラスの構築を目的として、統計的な単語クラスタリングの手法を提案する。具体的には文書集合から文書の背後にある概念を抽出し、それぞれの概念に固有な単語をクラスタリングする。同一概念毎に単語がクラスタリングされることで分野が特化し、検索質問の拡張あるいは検索結果の構造化といった目的に対応したシソーラスの自動構築が可能となる。提案手法を学術的な内容の文書集合に適用して、単語クラスタリングを生成し、概念毎の単語クラスタリングが生成された結果を報告する。
抄録(英) The existing search systems are based on simple word matching method. Therefore the variety of natural language prevent user search activity. The thesaurus is one answer to this problem. We propose a novel statistical word clustering to construct the thesaurus automatically. Here, the concepts are extracted from documents and words in documents are clustering into the same concepts. We can construct the thesaurus that is specialized on a domain and in a function by the word clustering. The proposed method is applied to a set of conference documents to examine the effectiveness of the generated word clustering.
キーワード(和) 情報検索 / シソーラス / 概念検索 / 単語クラスタリング / 特異値分解 / 因子分析
キーワード(英) Information Retrieval / Thesaurus / Conceptual Search / Word Classification / Factor Analysis
資料番号 NLC2001-16
発行日

研究会情報
研究会 NLC
開催期間 2001/7/9(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 統計的モデルを用いた単語クラスタリング
サブタイトル(和)
タイトル(英) The Word Clustering Based on Statistical Model
サブタイトル(和)
キーワード(1)(和/英) 情報検索 / Information Retrieval
キーワード(2)(和/英) シソーラス / Thesaurus
キーワード(3)(和/英) 概念検索 / Conceptual Search
キーワード(4)(和/英) 単語クラスタリング / Word Classification
キーワード(5)(和/英) 特異値分解 / Factor Analysis
キーワード(6)(和/英) 因子分析
第 1 著者 氏名(和/英) 川前 徳章 / Noriaki Kawamae
第 1 著者 所属(和/英) 東京大学先端科学技術研究センター
Research Center for Advanced Research and Technology, The University of Tokyo
第 2 著者 氏名(和/英) 青木 輝勝 / Terumasa Aoki
第 2 著者 所属(和/英) 東京大学先端科学技術研究センター
Research Center for Advanced Research and Technology, The University of Tokyo
第 3 著者 氏名(和/英) 安田 浩 / Hiroshi Yasuda
第 3 著者 所属(和/英) 東京大学先端科学技術研究センター
Research Center for Advanced Research and Technology, The University of Tokyo
発表年月日 2001/7/9
資料番号 NLC2001-16
巻番号(vol) vol.101
号番号(no) 189
ページ範囲 pp.-
ページ数 6
発行日