講演名 2017-02-09
専門用語辞書拡張システムの構築
石橋 和也(岡山大), 影浦 峡(東大), 岩井 美樹(東大), 竹内 孔一(岡山大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 辞書に含まれていない新たな専門用語を取り出す既存の方法として,専門文書から文法パターンや統計的学習モデルを利用して取得する方法が行われてきた.しかし,この手法では専門分野の文書数と獲得したい用語の頻度に問題があり獲得できない用語が多く存在した.このため本提案手法では,先行研究とは異なり既存の専門用語辞書から新たな専門用語とその対訳を獲得する手法によって専門用語辞書拡張を目指す.この手法を基にシステムを作成し,そのシステム内で使用する2部グラフのクラスタリングにおいてKLアルゴリズムとSpectral Co-Clusteringの両方においてシステムを構築し実験を行った.その結果,Spectral Co-Clusteringを用いたシステムによって生成された用語候補が最大で58%の確率で新たな専門用語を生成し,専門用語対訳獲得に関して最大で26%の精度で正しく対訳を獲得した.また両方のクラスタリングによって生成された用語対訳候補について全分野においてSpectral Co-Clusteringが精度でKLアルゴリズムを上回った.よって,本研究で用いるクラスタリングとしてSpectral Co-Clusteringが有効であることを示す.
抄録(英) In most of previous work, pattern-based approaches or statistical learning model based approaches are applied to extracting bilingual terms from documents. There still remain, however, not small terms that are notextracted because of their low frequency in the documents. In contrast to the previous work, we have proposed an approach to extract new bilingual terms from bilingual term dictionaries because most of new terms can be composed of existing concepts, i.e., constituents of terms. One of the key issues of the proposed approach is how to make suitable clusters in bipartite graph of term constituents for generating proper new terms. In this study we applied two methods of clustering, i.e., Kernighan-Lin algorithm and Spectral Co-Clustering to dividing bipartite graph. The experimental results of generating new bilingual terms in five domains show that the Spectral Co-Clustering based system extracts proper new terms with a maximal of 58% accuracy and finds correct their translations with a maximal of 26% accuracy. In the experimental results of new term extraction task of all domains, the Spectral Co-Clustering system outperforms Kernighan-Lin algorithm based system.
キーワード(和) 専門用語 / KLアルゴリズム / Spectral Co-Clustering
キーワード(英) Terminorogy / KL algorithm / Spectral Co-Clustering
資料番号 NLC2016-42
発行日 2017-02-02 (NLC)

研究会情報
研究会 NLC / IPSJ-IFAT
開催期間 2017/2/9(から2日開催)
開催地(和) 大阪・梅田 ティーオージー会議室
開催地(英)
テーマ(和) 第10回テキストマイニング・シンポジウム
テーマ(英)
委員長氏名(和) 金山 博(日本IBM)
委員長氏名(英) Hiroshi Kanayama(IBM)
副委員長氏名(和) 市瀬 眞(NTTドコモ) / 榊 剛史(東大/ホットリンク)
副委員長氏名(英) Makoto Ichise(NTT DoCoMo) / Takeshi Sakaki(Univ. of Tokyo/Hottolink)
幹事氏名(和) 渡辺 靖彦(龍谷大) / 嶋田 和孝(九工大)
幹事氏名(英) Yasuhiko Watanabe(Ryukoku Univ.) / Kazutaka Shimada(Kyushu Inst. of Tech.)
幹事補佐氏名(和) 東中 竜一郎(NTT) / 吉田 光男(豊橋技科大)
幹事補佐氏名(英) Ryuichiro Higashinaka(NTT) / Mitsuo Yoshida(Toyohashi Univ. of Tech.)

講演論文情報詳細
申込み研究会 Technical Committee on Natural Language Understanding and Models of Communication / Special Interest Group on Information Fundamentals and Access Technologies
本文の言語 JPN
タイトル(和) 専門用語辞書拡張システムの構築
サブタイトル(和)
タイトル(英) Construction of a Bilingual Term Extension System
サブタイトル(和)
キーワード(1)(和/英) 専門用語 / Terminorogy
キーワード(2)(和/英) KLアルゴリズム / KL algorithm
キーワード(3)(和/英) Spectral Co-Clustering / Spectral Co-Clustering
第 1 著者 氏名(和/英) 石橋 和也 / Kazuya Ishibashi
第 1 著者 所属(和/英) 岡山大学(略称:岡山大)
Okayama University(略称:Okayama Univ.)
第 2 著者 氏名(和/英) 影浦 峡 / Kyo Kageura
第 2 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UTokyo)
第 3 著者 氏名(和/英) 岩井 美樹 / Miki Iwai
第 3 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UTokyo)
第 4 著者 氏名(和/英) 竹内 孔一 / Koichi Takeuchi
第 4 著者 所属(和/英) 岡山大学(略称:岡山大)
Okayama University(略称:Okayama Univ.)
発表年月日 2017-02-09
資料番号 NLC2016-42
巻番号(vol) vol.116
号番号(no) NLC-451
ページ範囲 pp.13-17(NLC),
ページ数 5
発行日 2017-02-02 (NLC)