講演名 2000/7/11
NLC2000-14 コーパスからの省略補完ルール獲得環境
中岩 浩巳,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では, 単言語コーパス及び対訳コーパスから効率的に省略補完ルールを獲得するソフトウェア環境を提案する.本環境では, 特定のコーパス向けに省略補完ルールを作成する過程を考慮にいれて, 一般的に入手容易な日本語単言語コーパスから省略箇所とその補完要素の情報をタグ付けした省略補完タグ付きn日本語コーパスを効率的に作成し, その結果をもとに省略補完ルールを効率的に作成する.また, 機械翻訳システムでの適用を想定した状況では入手が比較的容易な日英対訳コーパスから, 日本語文中の省略箇所とその英語文中の補完要素を自動抽出し, その結果を元に自動的にルールを獲得する機能も備えている.本環境は, 日本語解析系として日英機械翻訳システムALT-J/Eを活用して実装している.
抄録(英) This paper proposes a practical integrated environment for extracting rules for the anaphora resolution of zero pronouns from monolingual and or bilingual corpora. This method takes into account the practical situation for making resolution rules of zero pronouns in specific domain texts;the types of usable corpora(monolingual and or bilingual)for examining the extraction of resolution rules have been changed depending on the type of NLP system using extracted resolution rules. The extraction processes of resolution rules in the environment are classified into five component tasks:(1)Zero Pronoun Identification, (2)Antecedent Annotation, (3)Rejection of Sentences Unsuitable for Rule Extraction, (4)Rule Extraction, and (5)Extracted Rule Application and Modification. An automatic process and or a manual process with a user friendly human interface can be used to achieve each component task. This environment was implemented in the Japanese-to-English machine translation system, ALT-J/E, for Japanese zero pronoun resolution.
キーワード(和) 省略 / ゼロ代名詞 / 補完 / 照応解析 / コーパス / 機械学習
キーワード(英) ellipsis / zero pronouns / supplementation / anaphora resolution / corpora / machine learning
資料番号 NLC2000-14
発行日

研究会情報
研究会 NLC
開催期間 2000/7/11(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) NLC2000-14 コーパスからの省略補完ルール獲得環境
サブタイトル(和)
タイトル(英) An Environment for Extracting Resolution Rules of Zero Pronouns from Corpora
サブタイトル(和)
キーワード(1)(和/英) 省略 / ellipsis
キーワード(2)(和/英) ゼロ代名詞 / zero pronouns
キーワード(3)(和/英) 補完 / supplementation
キーワード(4)(和/英) 照応解析 / anaphora resolution
キーワード(5)(和/英) コーパス / corpora
キーワード(6)(和/英) 機械学習 / machine learning
第 1 著者 氏名(和/英) 中岩 浩巳 / Hiromi Nakaiwa
第 1 著者 所属(和/英) NTTコミュニケーション科学基礎研究所
NTT Communication Science Laboratories
発表年月日 2000/7/11
資料番号 NLC2000-14
巻番号(vol) vol.100
号番号(no) 200
ページ範囲 pp.-
ページ数 8
発行日