講演名 2000/7/11
NLC2000-16 対訳コーパスにおける低頻度語の性質 : 訳語対自動抽出に向けた基礎研究
辻 慶太, 芳鐘 冬樹, 影浦 峡,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 既に辞書に載っている訳語対を, 対訳コーパスから自動抽出してもメリットは少ない。コーパス中の頻度が高い対は既に辞書に載っているであろう。対訳コーパスから自動抽出すべき訳語対は, 頻度の低い訳語対である。そのような前提から本研究では, これまで研究されてきた統計的な訳語対抽出手法では, 低頻度訳語対の抽出が難しいことを示す。具体的には, 統計的手法では同じ言語の2語が常に同じアラインメントに共起する場合, 訳語が決定できない問題を取り上げる。頻度の低い語同士はこうした決定不能状況に陥りやすい。本研究では, 実際の対訳コーパス中で決定不能状況にある低頻度語の量・質を調べ, 訳語対抽出手法の改善方向を検討した。
抄録(英) The high-frequency bilingual word pairs in bilingual corpora are alrcady listed in the dictionaries. It is the low-frequency pairs that we have to extract. Based on that idea, we examine the method for automatically extracting bilingual word pairs from corpora and show that the statistical method, which has been studied intensively so far, is not suitable for the task. If two words J1 and J2 which belong to the same language always co-occur in the same alignments, the statistical method cannot determine which word is the correct translation of word E which belong to the other language. We saw many of the low-frequency words are in the above situation.
キーワード(和) 低頻度語 / 訳語対 / 自動抽出 / 対訳コーパス
キーワード(英) Low-frequency word / Bilingual word pair / Automatic extraction / Bilingual Corpora
資料番号 NLC2000-16
発行日

研究会情報
研究会 NLC
開催期間 2000/7/11(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) NLC2000-16 対訳コーパスにおける低頻度語の性質 : 訳語対自動抽出に向けた基礎研究
サブタイトル(和)
タイトル(英) Low-frequency Words in Bilingual Corpora : A Step towards Automatic Extraction of Bilingual Word Pairs
サブタイトル(和)
キーワード(1)(和/英) 低頻度語 / Low-frequency word
キーワード(2)(和/英) 訳語対 / Bilingual word pair
キーワード(3)(和/英) 自動抽出 / Automatic extraction
キーワード(4)(和/英) 対訳コーパス / Bilingual Corpora
第 1 著者 氏名(和/英) 辻 慶太 / Keita Tsuji
第 1 著者 所属(和/英) 東京大学大学院教育学研究科
Graduate School of Education, University of Tokyo
第 2 著者 氏名(和/英) 芳鐘 冬樹 / Fuyuki Yoshikane
第 2 著者 所属(和/英) 東京大学大学院教育学研究科
Graduate School of Education, University of Tokyo
第 3 著者 氏名(和/英) 影浦 峡 / kyo Kageura
第 3 著者 所属(和/英) 国立情報学研究所
National Institute of Informatics
発表年月日 2000/7/11
資料番号 NLC2000-16
巻番号(vol) vol.100
号番号(no) 200
ページ範囲 pp.-
ページ数 8
発行日