講演抄録/キーワード |
講演名 |
2017-02-09 11:30
専門用語辞書拡張システムの構築 ○石橋和也(岡山大)・影浦 峡・岩井美樹(東大)・竹内孔一(岡山大) NLC2016-42 |
抄録 |
(和) |
辞書に含まれていない新たな専門用語を取り出す既存の方法として,専門文書から文法パターンや統計的学習モデルを利用して取得する方法が行われてきた.しかし,この手法では専門分野の文書数と獲得したい用語の頻度に問題があり獲得できない用語が多く存在した.
このため本提案手法では,先行研究とは異なり既存の専門用語辞書から新たな専門用語とその対訳を獲得する手法によって専門用語辞書拡張を目指す.この手法を基にシステムを作成し,そのシステム内で使用する2部グラフのクラスタリングにおいてKLアルゴリズムとSpectral Co-Clusteringの両方においてシステムを構築し実験を行った.その結果,Spectral Co-Clusteringを用いたシステムによって生成された用語候補が最大で58%の確率で新たな専門用語を生成し,専門用語対訳獲得に関して最大で26%の精度で正しく対訳を獲得した.また両方のクラスタリングによって生成された用語対訳候補について全分野においてSpectral Co-Clusteringが精度でKLアルゴリズムを上回った.よって,本研究で用いるクラスタリングとしてSpectral Co-Clusteringが有効であることを示す. |
(英) |
In most of previous work, pattern-based approaches or statistical learning model based approaches are applied to extracting bilingual terms from documents. There still remain, however, not small terms that are not
extracted because of their low frequency in the documents. In contrast to the previous work, we have proposed an approach to extract new bilingual terms from bilingual term dictionaries because most of new terms can be composed of existing concepts, i.e., constituents of terms. One of the key issues of the proposed approach is how to make suitable clusters in bipartite graph of term constituents for generating proper new terms. In this study we applied two methods of clustering, i.e., Kernighan-Lin algorithm and Spectral Co-Clustering to dividing bipartite graph. The experimental results of generating new bilingual terms in five domains show that the Spectral Co-Clustering based system extracts proper new terms with a maximal of 58% accuracy and finds correct their translations with a maximal of 26% accuracy. In the experimental results of new term extraction task of all domains, the Spectral Co-Clustering system outperforms Kernighan-Lin algorithm based system. |
キーワード |
(和) |
専門用語 / KLアルゴリズム / Spectral Co-Clustering / / / / / |
(英) |
Terminorogy / KL algorithm / Spectral Co-Clustering / / / / / |
文献情報 |
信学技報, vol. 116, no. 451, NLC2016-42, pp. 13-17, 2017年2月. |
資料番号 |
NLC2016-42 |
発行日 |
2017-02-02 (NLC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLC2016-42 |