講演名 2001/7/9
正誤判別規則学習を用いた複数の日本語固有表現抽出システムの出力の混合
宇津呂 武仁, 颯々野 学, 内元 清貴,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本論文では, 日本語固有表現抽出の問題において, 複数のモデルの出力を混合する手法を提案する.混合の方式としては, 複数のシステム・モデルの出力(および訓練データそのもの)を入力とする第二段の学習器を用いて, 複数のシステム・モデルの出力の混合を行なう規則を学習するという混合法(stacking法)を採用する.第二段の学習器として決定リスト学習を用いて, 最大エントロピー法に基づく固有表現抽出モデルのうち, お互いに挙動の異なる固定文脈長モデルと可変文脈長モデルの出力を混合する実験を行なった結果, 最大エントロピー法に基づく固有表現抽出モデルにおいてこれまで得られていた最高の性能を上回る性能が達成された.
抄録(英) In this paper, we propose a methodfor learning a classifier which combines outputs of more than one Japanese named entity extractors. Individual models to be combined are based on maximum entropy models, one of which always considers surrounding contexts of a fixed length, while the other considers those of variable lengths according to the number of constituent morphemes of named entities. Experimental evaluation shows that the proposed method achieves improvement over the best known results with named entity extractors based on maximum entropy models.
キーワード(和) 日本語固有表現抽出 / 複数システム混合 / stacking / 可変文脈長 / 最大エントロピー法 / 決定リスト学習
キーワード(英) Japanese named entity extraction / system combination / stacking / variable context length / maximum entropy model / decision list learning
資料番号 NLC2001-13
発行日

研究会情報
研究会 NLC
開催期間 2001/7/9(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 正誤判別規則学習を用いた複数の日本語固有表現抽出システムの出力の混合
サブタイトル(和)
タイトル(英) Learning to Combine Outputs of Multiple Japanese Named Entity Extractors
サブタイトル(和)
キーワード(1)(和/英) 日本語固有表現抽出 / Japanese named entity extraction
キーワード(2)(和/英) 複数システム混合 / system combination
キーワード(3)(和/英) stacking / stacking
キーワード(4)(和/英) 可変文脈長 / variable context length
キーワード(5)(和/英) 最大エントロピー法 / maximum entropy model
キーワード(6)(和/英) 決定リスト学習 / decision list learning
第 1 著者 氏名(和/英) 宇津呂 武仁 / Takehito Utsuro
第 1 著者 所属(和/英) 豊橋技術科学大学 工学部 情報工学系
Department of Information and Computer Sciences, Toyohashi University of Technology
第 2 著者 氏名(和/英) 颯々野 学 / Manabu Sassano
第 2 著者 所属(和/英) 富士通研究所
Fujitsu Laboratories, Ltd.
第 3 著者 氏名(和/英) 内元 清貴 / Kiyotaka Uchimoto
第 3 著者 所属(和/英) 独立法人通信総合研究所
Communications Research Laboratory
発表年月日 2001/7/9
資料番号 NLC2001-13
巻番号(vol) vol.101
号番号(no) 189
ページ範囲 pp.-
ページ数 8
発行日