講演名 2001/10/10
翻訳メモリとコーパスを用いた学習に基づく訳語選択
内元 清貴, 関根 聡, 村田 真樹, 井佐原 均,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 2001年の春, 単語の多義性解消のコンテスト第2回SENSEVALが開催された.このコンテストでは様々な言語に関するタスクが用意された.本稿では, そのうち日本語の翻訳タスクに参加した, 我々のシステムについて述べる.このタスクでは単語の多義は翻訳として定義される.我々のシステムは, 入力文と対象単語が与えられたとき, 翻訳メモリと呼ばれる対訳用例集合と入力文との類似度を求め, 類似度が最大となる用例を用いて対象単語の訳語選択を行なう.類似度は, 文字列の類似性や入力文における対象単語周辺の単語, 入力文中の内容語とその訳語候補, 対話および日英の単言語コーパスにおけるそれらの共起頻度などを手がかりとして考慮し, 動的計画法や学習モデルを用いて求める.コンテストの結果は, 精度63.4%, 3位(7団体9システム中)の成績であった.
抄録(英) The second contest on word sensedisambiguation, SENSEVAL-2, was held in Spring, 2001. It consists of several tasks in various languages. In this paper, we describe our system that is used for one of these tasks: the Japanese translation task. In this task, senses of a word are defined in terms of the word's translations. Given an input sentence and a target word in the sentence, our system first estimates the similarity between the input sentence and parallel example sets called translation memory. It then selects an appropriate translation of the target word by using the example set with the highest similarity. The similarity is calculated using dynamic programming and a machine learning model which uses the following features: similarity of a string, words to the left and to the right of the target word in the input sentence, content words in the input sentence and their translations, and cooccurrence of content words in bilingual and monolingual corpora in English and Japanese. Our system achieves an accuracy of 63.4%, finishing the contest in third place among nine systems developed by seven groups.
キーワード(和) 翻訳メモリ / コーパス / 類似度 / 機械学習 / 訳語選択
キーワード(英) Translation memory / Corpus / Similarity / Machine learning / Word translation
資料番号 NLC 2001-41
発行日

研究会情報
研究会 NLC
開催期間 2001/10/10(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 翻訳メモリとコーパスを用いた学習に基づく訳語選択
サブタイトル(和)
タイトル(英) Word Translation Based on Machine Learning Models Using Translation Memory and Corpora
サブタイトル(和)
キーワード(1)(和/英) 翻訳メモリ / Translation memory
キーワード(2)(和/英) コーパス / Corpus
キーワード(3)(和/英) 類似度 / Similarity
キーワード(4)(和/英) 機械学習 / Machine learning
キーワード(5)(和/英) 訳語選択 / Word translation
第 1 著者 氏名(和/英) 内元 清貴 / Kiyotaka UCHIMOTO
第 1 著者 所属(和/英) 独立行政法人通信総合研究所
Communications Research Laboratory
第 2 著者 氏名(和/英) 関根 聡 / Satoshi SEKINE
第 2 著者 所属(和/英) ニューヨーク大学
New York University
第 3 著者 氏名(和/英) 村田 真樹 / Masaki MURATA
第 3 著者 所属(和/英) 独立行政法人通信総合研究所
Communications Research Laboratory
第 4 著者 氏名(和/英) 井佐原 均 / Hiroshi ISAHARA
第 4 著者 所属(和/英) 独立行政法人通信総合研究所
Communications Research Laboratory
発表年月日 2001/10/10
資料番号 NLC 2001-41
巻番号(vol) vol.101
号番号(no) 351
ページ範囲 pp.-
ページ数 8
発行日