講演名 2007/9/28
検索ログを用いた意味知識獲得のためのブートストラップ手法(言語理解のためのコーパスからの知識獲得)
小町 守, 鈴木 久美,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) Web検索ログから意味知識を獲得するブートストラップ手法を提案する.我々の手法は2項関係抽出アルゴリズムEspressoに基づくもので,意味カテゴリ獲得タスクのために検索ログを適切に扱うことができるような修正を加えている.日本語検索ログデータを用いた実験を行い,我々の手法と他に2つの半教師あり語彙知識獲得システムを比較して,我々の手法が既存手法より高い精度を持ち,高速に動作し,意味カテゴリの特徴づけにとってより意味のある文脈パターンを集めることができることを示した.また,単語分割が問題となるアジア言語を対象とした知識獲得において,本手法は正しく単語分割された用語を獲得することができ,単語分割に関する事前知識を全く必要としない点でも優れている.
抄録(英) We propose a bootstrapping method for learning semantic categories of words from query logs of web search. Our method is based on the Espresso algorithm for extracting binary relations, but makes important modifications for handling the query log data for the task of acquiring semantic categories. We present experimental results comparing our method with two state-of-the-art semi-supervised lexical knowledge extraction systems using Japanese query log data, and show that our method achieves higher precision, runs faster and collects more meaningful contextual patterns for characterizing the categories than the previously proposed methods. We also show that the proposed method offers an additional advantage for knowledge acquisition for Asian language for which word segmentation is an issue, as the method utilizes no prior knowledge of word segmentation, and is able to harvest new terms with correct word segmentation.
キーワード(和) 検索ログ / 意味知識 / 固有表現 / 半教師あり学習
キーワード(英) Query Log / Semantic Knowledge / Named Entity / Semi-supervised Learning
資料番号 NLC2007-31
発行日

研究会情報
研究会 NLC
開催期間 2007/9/28(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 検索ログを用いた意味知識獲得のためのブートストラップ手法(言語理解のためのコーパスからの知識獲得)
サブタイトル(和)
タイトル(英) A Bootstrapping Approach to Semantic Knowledge Acquisition using Query Logs
サブタイトル(和)
キーワード(1)(和/英) 検索ログ / Query Log
キーワード(2)(和/英) 意味知識 / Semantic Knowledge
キーワード(3)(和/英) 固有表現 / Named Entity
キーワード(4)(和/英) 半教師あり学習 / Semi-supervised Learning
第 1 著者 氏名(和/英) 小町 守 / Mamoru KOMACHI
第 1 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
第 2 著者 氏名(和/英) 鈴木 久美 / Hisami SUZUKI
第 2 著者 所属(和/英) マイクロソフト・リサーチ
Microsoft Research One Microsoft Way
発表年月日 2007/9/28
資料番号 NLC2007-31
巻番号(vol) vol.107
号番号(no) 246
ページ範囲 pp.-
ページ数 6
発行日