講演名 2022-03-07
開発プロジェクトのドメインに特化したRoBERTaによるコード補完モデルの提案
福本 大介(奈良先端大), 平尾 俊貴(奈良先端大), 藤原 賢二(TCU), 飯田 元(奈良先端大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) コード補完は,開発者がプログラムを作成中に次に入力する候補(トークン列)を自動推薦する技術である.コード補完によって,開発スキルが乏しい開発者でもコーディング時間を短縮させることが可能である.従来研究では,機械学習技術を用いてプログラムの文脈を考慮し,より汎用的にトークンを補完できる手法を提案している.しかし,これらの従来研究では,補完するトークン数が増えると急激に補完精度が低下する課題が報告されている.本研究では,自然言語処理の機械学習モデルの一つであるRoBERTaに対して,開発者のリポジトリのドメインで構築されたデータセットで追加学習する手法を提案する.これにより,モデルが推薦する語彙を減らす事ができ,補完精度の向上が期待される.実験の結果,事前学習から一定の精度改善が確認された.
抄録(英) Code completion is a function that automatically recommends code for developers when they are writing code. Code completion can reduce coding time even for developers with insufficient skills. In the previous research, the machine learning-based completion that considers the context of the program and completes tokens in a more generally has been proposed. However, these previous studies have reported that the accuracy of completion decreases rapidly when the number of completing tokens increases. In this study, we propose a method that additionally trains RoBERTa, a machine learning model for natural language processing, on a dataset built in the domain of a developer's repository. We expect it can reduce the vocabulary recommended by the model and improve the completion accuracy. As a result of our experiments, we confirmed a improvement in accuracy compared to pre-trained model.
キーワード(和) コード補完 / 転移学習 / BERT / RoBERTa
キーワード(英) Code Completion / Transfer Learning / BERT / RoBERTa
資料番号 SS2021-50
発行日 2022-02-28 (SS)

研究会情報
研究会 SS
開催期間 2022/3/7(から2日開催)
開催地(和) オンライン開催
開催地(英) Online
テーマ(和) ソフトウェアサイエンスおよび一般
テーマ(英) Software Science etc.
委員長氏名(和) 小林 隆志(東工大)
委員長氏名(英) Takashi Kobayashi(Tokyo Inst. of Tech.)
副委員長氏名(和) 岡野 浩三(信州大)
副委員長氏名(英) Kozo Okano(Shinshu Univ.)
幹事氏名(和) 島 和之(広島市大) / 林 晋平(東工大)
幹事氏名(英) Kazuyuki Shima(Hiroshima City Univ.) / Shinpei Hayashi(Tokyo Inst. of Tech.)
幹事補佐氏名(和) 小形 真平(信州大)
幹事補佐氏名(英) Shinpei Ogata(Shinshu Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Software Science
本文の言語 JPN
タイトル(和) 開発プロジェクトのドメインに特化したRoBERTaによるコード補完モデルの提案
サブタイトル(和)
タイトル(英) Project-domain adaptation with RoBERTa Model for Code Completion
サブタイトル(和)
キーワード(1)(和/英) コード補完 / Code Completion
キーワード(2)(和/英) 転移学習 / Transfer Learning
キーワード(3)(和/英) BERT / BERT
キーワード(4)(和/英) RoBERTa / RoBERTa
第 1 著者 氏名(和/英) 福本 大介 / Daisuke Fukumoto
第 1 著者 所属(和/英) 奈良先端科学技術大学院大学(略称:奈良先端大)
Nara Institute of Science and Technology(略称:NAIST)
第 2 著者 氏名(和/英) 平尾 俊貴 / Toshiki Hirao
第 2 著者 所属(和/英) 奈良先端科学技術大学院大学(略称:奈良先端大)
Nara Institute of Science and Technology(略称:NAIST)
第 3 著者 氏名(和/英) 藤原 賢二 / Kenji Fujiwara
第 3 著者 所属(和/英) 東京都市大学(略称:TCU)
Tokyo City University(略称:TCU)
第 4 著者 氏名(和/英) 飯田 元 / Hajimu Iida
第 4 著者 所属(和/英) 奈良先端科学技術大学院大学(略称:奈良先端大)
Nara Institute of Science and Technology(略称:NAIST)
発表年月日 2022-03-07
資料番号 SS2021-50
巻番号(vol) vol.121
号番号(no) SS-416
ページ範囲 pp.49-53(SS),
ページ数 5
発行日 2022-02-28 (SS)