講演名 2007/7/17
拡張固有表現獲得の精度向上(語彙2)
塩入 寛之, 関根 聡, 梅村 恭司,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 固有表現辞書の整備は固有表現抽出ツールだけではなく,言語知識や世界知識の把握のために有用である.人手での整備は高コストであり,関根らはWEB検索エンジンの英語の検索ログを用いて固有表現辞書を整備する手法を提案した(関根,鈴木2007).この方法はブートストラッピングを利用し同義の単語を見つける方法の一種であり,その特徴は大規模な固有表現辞書と固有表現のコンテキストを利用することである.しかしながら,検索ログの入手は一般には困難であるため,新聞記事などで同様のことができると便利である.本論文では対象コーパスを新聞記事とし,獲得精度の向上を得るためのいくつかの手法を提案する.
抄録(英) Maintenance of a NE (Named Entity) dictionary is important for grasp of not only a NE extraction tool but also language knowledge and world knowledge. Maintenance by human is expensive, and Sekine suggested technique to get a Named Entity dictionary ready with English search log of WEB search engine. (Sekine, Suzuki 2007). It is a kind of a method to find a synonymous word in using bootstrapping, and the characteristic is to use a large-scale NE dictionary and context of NE. However, acquisition of search log is usually difficult. It is convenient if we can use newspaper articles. We conducted experiments to improve the acquisition precision using newspaper articles.
キーワード(和) 固有表現 / ブートストラッピンク / 語彙獲得
キーワード(英) Named Entity / Bootstrapping / Vocabulary Acquisition
資料番号 NLC2007-12
発行日

研究会情報
研究会 NLC
開催期間 2007/7/17(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 拡張固有表現獲得の精度向上(語彙2)
サブタイトル(和)
タイトル(英) Precision Improvement of Extended Named Entity Acquisition
サブタイトル(和)
キーワード(1)(和/英) 固有表現 / Named Entity
キーワード(2)(和/英) ブートストラッピンク / Bootstrapping
キーワード(3)(和/英) 語彙獲得 / Vocabulary Acquisition
第 1 著者 氏名(和/英) 塩入 寛之 / Hiroyuki SHIOIRI
第 1 著者 所属(和/英) 豊橋技術科学大学
Toyohashi University of Technology
第 2 著者 氏名(和/英) 関根 聡 / Satoshi SEKINE
第 2 著者 所属(和/英) ニューヨーク大学
New York University
第 3 著者 氏名(和/英) 梅村 恭司 / Kyoji UMEMURA
第 3 著者 所属(和/英) 豊橋技術科学大学
Toyohashi University of Technology
発表年月日 2007/7/17
資料番号 NLC2007-12
巻番号(vol) vol.107
号番号(no) 158
ページ範囲 pp.-
ページ数 6
発行日