講演名 2018-12-11
単語分散表現を用いたEarth Mover’s Distanceと文長の違いに基づく類似度による対訳文の自動抽出
田上 諒(北海学園大), 越前谷 博(北海学園大), 荒木 健治(北大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本報告では,対訳辞書などの高品質な対訳知識を用いることなく,コンパラブルコーパスから対訳文を自動抽出する手法を提案する.提案手法では,単語分散表現を用いて翻訳行列と類似度計算を行うことで対訳文を抽出する.その際,類似度計算にはEarth Mover’s Distanceを用いる.更に,提案手法では文長の違いを重みとして類似度に用いることで抽出精度の向上を図っている.ニュース記事のコンパラブルコーパスを用いた性能評価実験の結果,全記事の平均のF値はベースラインで0.13,EMDのみのシステムと提案手法にける文長を考慮しない場合では共に0.42,文長を考慮した場合は0.49となった.これらの結果から,文長を考慮した提案手法の有効性が確認された.
抄録(英) In this paper, we propose new method to automatically extract bilingual sentences from comparable corpus without high quality bilingual knowledge such as bilingual dictionary. In our proposed method, the bilingual sentences are extracted using the translation matrix and the similarity between two language sentences based on the word embeddings. In that case, the Earth Mover's Distance is used to calculate the similarity. Moreover, the weight based on the difference of lengths between two language sentences is applied to the similarity in EMD. The evaluational experiments using the news article's comparable corpus indicate that the average of F-measure of our proposed method was 0.49, those of our proposed method without the weight based on the sentence length and the method based only on EMD were respectively 0.42, and that of the method using sentence length which is the baseline was 0.13. Therefore, we confirmed the effectiveness of our proposed method using the weight based sentence length.
キーワード(和) 対訳文 / 自動抽出 / word2vec / Earth Mover’s Distance / 文長
キーワード(英) Bilingual Sentences / Automatic Extraction / word2vec / Earth Mover’s Distance / Sentence Length
資料番号 NLC2018-30
発行日 2018-12-04 (NLC)

研究会情報
研究会 NLC / IPSJ-NL / SP / IPSJ-SLP
開催期間 2018/12/10(から3日開催)
開催地(和) 早稲田大学西早稲田キャンパス
開催地(英) Waseda Univ. Nishiwaseda Campus
テーマ(和) 第5回自然言語処理シンポジウム & 第20回音声言語シンポジウム
テーマ(英) The 5th Natural Language Processing Symposium & The 20th Spoken Language Symposium
委員長氏名(和) 榊 剛史(ホットリンク) / / 山下 洋一(立命館大)
委員長氏名(英) Takeshi Sakaki(Hottolink) / / Yoichi Yamashita(Ritsumeikan Univ.)
副委員長氏名(和) 吉田 光男(豊橋技科大) / 嶋田 和孝(九工大) / / 李 晃伸(名工大)
副委員長氏名(英) Mitsuo Yoshida(Toyohashi Univ. of Tech.) / Kazutaka Shimada(Kyushu Inst. of Tech.) / / Akinobu Ri(Nagoya Inst. of Tech.)
幹事氏名(和) 渡辺 靖彦(龍谷大) / 東中 竜一郎(NTT) / / 南條 浩輝(京大) / 坂野 秀樹(名城大)
幹事氏名(英) Yasuhiko Watanabe(Ryukoku Univ.) / Ryuichiro Higashinaka(NTT) / / Hiroaki Nanjo(Kyoto Univ.) / Hideki Banno(Meijo Univ.)
幹事補佐氏名(和) 小早川 健(NHK) / 坂地 泰紀(東大) / / 郡山 知樹(東工大) / 小橋川 哲(NTT)
幹事補佐氏名(英) Takeshi Kobayakawa(NHK) / Hiroki Sakaji(Univ. of Tokyo) / / Tomoki Koriyama(Tokyo Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Natural Language Understanding and Models of Communication / Special Interest Group on Natural Language / Technical Committee on Speech / Special Interest Group on Spoken Language Processing
本文の言語 JPN
タイトル(和) 単語分散表現を用いたEarth Mover’s Distanceと文長の違いに基づく類似度による対訳文の自動抽出
サブタイトル(和)
タイトル(英) Automatic Extraction of Bilingual Sentences by Similarity based on Earth Mover's Distance using Word Embeddings and Difference of Sentence Length
サブタイトル(和)
キーワード(1)(和/英) 対訳文 / Bilingual Sentences
キーワード(2)(和/英) 自動抽出 / Automatic Extraction
キーワード(3)(和/英) word2vec / word2vec
キーワード(4)(和/英) Earth Mover’s Distance / Earth Mover’s Distance
キーワード(5)(和/英) 文長 / Sentence Length
第 1 著者 氏名(和/英) 田上 諒 / Ryo Tanoue
第 1 著者 所属(和/英) 北海学園大学(略称:北海学園大)
Hokkai-Gakuen University(略称:Hokkai-Gakuen Univ.)
第 2 著者 氏名(和/英) 越前谷 博 / Hiroshi Echizen'ya
第 2 著者 所属(和/英) 北海学園大学(略称:北海学園大)
Hokkai-Gakuen University(略称:Hokkai-Gakuen Univ.)
第 3 著者 氏名(和/英) 荒木 健治 / Kenji Araki
第 3 著者 所属(和/英) 北海道大学(略称:北大)
Hokkaido University(略称:Hokkaido Univ.)
発表年月日 2018-12-11
資料番号 NLC2018-30
巻番号(vol) vol.118
号番号(no) NLC-355
ページ範囲 pp.3-8(NLC),
ページ数 6
発行日 2018-12-04 (NLC)