講演名 2001/10/10
単語のノイズを除去した教師なし文書の分類と検索
川前 徳章, 青木 輝勝, 安田 浩,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 従来の検索システムは、ユーザの検索の意図と文書の作成者の意図とのマッチングでなく、キーワードマッチングで行われている。その為にユーザの検索活動は効率的ではない。その原因にはユーザ、文書作成者共に自身の意図を具体的にできなかったり、表現のゆらぎなどが存在することにある。本稿は内容の類似した文書を検索する手法を提案する。提案手法は文書に出現した単語から、単語のノイズを除去して文書作成者の意図を推定する。その結果、文書の類似性が文書に含まれる単語の有無から推定された意図の類似性によって定義できる。意図の類似性により定義された文書の類似性が、単語を用いるよりも文書の内容に基づいた類似関係を反映するために、内容の類似した文書の検索が実現でき、ユーザの検索活動が効率化された。
抄録(英) This paper presents a novel approach mapping documents into a conceptual space. Many search systems are based on not concepts but simple words matching method. We have trouble in seeking an information by this method. Because it is hard for us to exchange concepts into words and words' usage differs by people. We define these difference words' noise. Our presented information retrieval method use not words but concepts generating words in documents. We remove the words' noise, infer the concepts from wrods and map documents in the concept space. The relation of documents is measured not words in documents but concepts. The measure based on the concepts approximates the esseptial similarity between documents' contents. Therefore the precision of documents classification improves, and users can search by their concepts.
キーワード(和) 情報検索 / 概念検索 / 文書分類 / 因子分析 / 潜在意味空間
キーワード(英) Information Retrieval / Conceptual Search / Document Classification / Factor Analysis / Latent Semantic Space
資料番号 NLC 2001-48
発行日

研究会情報
研究会 NLC
開催期間 2001/10/10(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 単語のノイズを除去した教師なし文書の分類と検索
サブタイトル(和)
タイトル(英) The Documents Classification andRetrieval by Removing of Words' Noise
サブタイトル(和)
キーワード(1)(和/英) 情報検索 / Information Retrieval
キーワード(2)(和/英) 概念検索 / Conceptual Search
キーワード(3)(和/英) 文書分類 / Document Classification
キーワード(4)(和/英) 因子分析 / Factor Analysis
キーワード(5)(和/英) 潜在意味空間 / Latent Semantic Space
第 1 著者 氏名(和/英) 川前 徳章 / Noriaki Kawamae
第 1 著者 所属(和/英) 東京大学先端科学技術研究センター
Research Center for Advanced Research and Technology, The University of Tokyo
第 2 著者 氏名(和/英) 青木 輝勝 / Terumasa Aoki
第 2 著者 所属(和/英) 東京大学先端科学技術研究センター
Research Center for Advanced Research and Technology, The University of Tokyo
第 3 著者 氏名(和/英) 安田 浩 / Hiroshi Yasuda
第 3 著者 所属(和/英) 東京大学先端科学技術研究センター
Research Center for Advanced Research and Technology, The University of Tokyo
発表年月日 2001/10/10
資料番号 NLC 2001-48
巻番号(vol) vol.101
号番号(no) 351
ページ範囲 pp.-
ページ数 8
発行日