講演抄録/キーワード |
講演名 |
2016-03-10 13:50
ソースコード片検索および推薦のためのクリーニング手法の提案と評価 ○内山武尊(公立はこだて未来大)・神谷年洋(島根大)・新美礼彦(公立はこだて未来大) SS2015-84 |
抄録 |
(和) |
本研究では自然言語処理むけの機械学習の技術であるWord2Vecをソフトウェアプロダクトのソースコードに適用する.Word2Vecにソースコード内の値やメソッド名,関数名や変数名などの識別子やリテラルを入力し,それらの単語の類似性や相違性を表現する統計的なモデルを作成する.このモデルはソースコードの検索や推薦に利用される.
予備実験を行った結果,ソースコードから抽出した識別子やリテラルをWord2Vecにそのまま入力しても検索結果に不適当な単語が含まれてしまうことが判明した.これら不適切な単語を検索結果から除外するためのクリーニング手法についてその有効性を実験的に評価する. |
(英) |
In this study, we apply a machine-learning method for a natural language processing, namely Word2Vec, to source code of software products.
From a series of tokens (such as method names, function names, variable names, and literals) of source code,
Word2Vec algorithm generates a statical model of relations (such as similarities) between the words.
This model is used for searching or recommendation of source code.
A result of a preliminary experiment showed accuracy of such a model is insufficient:
its search result often included inadequate words.
To eliminate such inadequate words, we introduced cleaning methods as preprocesses of building a statistical model.
The cleaning methods have been evaluated in an experiment. |
キーワード |
(和) |
ソースコード / 静的解析 / 自然言語処理 / Word2Vec / 機械学習 / / / |
(英) |
Source code / Static analysis / Natural language processing / Word2Vec / Machine learning / / / |
文献情報 |
信学技報, vol. 115, no. 508, SS2015-84, pp. 49-54, 2016年3月. |
資料番号 |
SS2015-84 |
発行日 |
2016-03-03 (SS) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SS2015-84 |