講演名 | 2019-06-18 Hybrid Reinforcement and Imitation Learning for Human-Like Agents ドッサ ルスラン フェルナン ジュリアン(神戸大), 連 欣瑜(神戸大), 野本 洋一(*), 松原 崇(神戸大), 上原 邦昭(神戸大), |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 強化学習では,収益の最大化を目指して訓練することで,様々な課題が解決できる.しかしながら,ゲームAIや自動運転などに応用する際,ユーザに不安や危害を与える恐れがあるため,性能以外のことも考慮する必要がある. 一方で,模倣学習では、エキスパートのデータ上でエージェントを訓練することで,そのエキスパートを模倣することができる.ただし,振る舞いが不自然であったり性能がエキスパートの性能に限られる場合がある.本論文では,連続行動空間に適用可能な強化学習と模倣学習の融合モデルを提案する.この融合モデルは,単なる模倣学習のエージェントと比較して高い性能を示し,強化学習モデルより人間らしい振る舞いを学習することができた. |
抄録(英) | Reinforcement learning methods achieve performance superior to humans in a wide range of complex tasks and uncertain environments. However, high performance is not the sole metric for practical use, namely when used as a game AI or autonomous driving agent, since highly efficient agent tends to perform greedily and selfishly, therefore inconveniencing the users. Consequently, there is a need for more human-like agents. Imitation learning, on the other hand, aims at reproducing the behavior of a human expert and can be used to train a human-like agent, the caveat being that its performance is generally limited by the expert's skill. In the study, we propose a training scheme to construct a human-like and efficient agent through a hybrid of reinforcement and imitation learning, and apply it to a racing car simulator. The proposed hybrid agent achieves a higher performance than a strictly imitation learning agent while exhibits more human-like behavior, which is measured via a human sensitivity test. |
キーワード(和) | 自動運転 / ゲームAI / 人間らしさ / 模倣学習 / 強化学習 |
キーワード(英) | Autonomous Driving / Game AI / Human-Like Behavior / Imitation Learning / Reinforcement Learning |
資料番号 | NC2019-16,IBISML2019-14 |
発行日 | 2019-06-10 (NC, IBISML) |
研究会情報 | |
研究会 | NC / IBISML / IPSJ-MPS / IPSJ-BIO |
---|---|
開催期間 | 2019/6/17(から3日開催) |
開催地(和) | 沖縄科学技術大学院大学 |
開催地(英) | Okinawa Institute of Science and Technology |
テーマ(和) | NC、機械学習によるバイオデータマイニング、一般 |
テーマ(英) | Neurocomputing, Machine Learning Approach to Biodata Mining, and General |
委員長氏名(和) | 庄野 逸(電通大) / 鹿島 久嗣(京大) / 関嶋 政和(東工大) / 倉田 博之(九工大) |
委員長氏名(英) | Hayaru Shouno(UEC) / Hisashi Kashima(Kyoto Univ.) / Masakazu Sekijima(Tokyo Tech) / Hiroyuki Kurata(Kyutech) |
副委員長氏名(和) | 鮫島 和行(玉川大) / 杉山 将(東大) / 津田 宏治(東大) |
副委員長氏名(英) | Kazuyuki Samejima(Tamagawa Univ) / Masashi Sugiyama(Univ. of Tokyo) / Koji Tsuda(Univ. of Tokyo) |
幹事氏名(和) | 吉本 潤一郎(奈良先端大) / 安部川 直稔(NTT) / 竹内 一郎(名工大) / 神嶌 敏弘(産総研) / 吉川 大弘(名古屋大) / 大久保 好章(北大) / 小谷野 仁(東工大) / 渡邉 真也(室蘭工業大) / 佐藤 寛之(電通大) / 高田 雅美(奈良女子大) / 田口 善弘(中央大) / 吉本 潤一郎(奈良先端大) / 伊藤 公人(北大) |
幹事氏名(英) | Junichiro Yoshimoto(NAIST) / Naotoshi Abekawa(NTT) / Ichiro Takeuchi(Nagoya Inst. of Tech.) / Toshihiro Kamishima(AIST) / Tomohiro Yoshikawa(Nagoya Univ.) / Yoshiaki Okubo(Hokkaido Univ.) / Hitoshi Koyano(Tokyo Tech) / Shinya Watanabe(Muroran Inst. Tech.) / Hiroyuki Sato(UEC) / Masami Takata(Nara Women's Univ.) / Yoshihiro Taguchi(Chuo Univ.) / Junichiro Yoshimoto(NAIST) / Kimihito Ito(Hokkaido Univ.) |
幹事補佐氏名(和) | 篠崎 隆志(NICT) / 瀧山 健(東京農工大) / 岩田 具治(NTT) / 大羽 成征(京大) |
幹事補佐氏名(英) | Takashi Shinozaki(NICT) / Ken Takiyama(TUAT) / Tomoharu Iwata(NTT) / Shigeyuki Oba(Kyoto Univ.) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Neurocomputing / Technical Committee on Infomation-Based Induction Sciences and Machine Learning / IPSJ Special Interest Group on Mathematical Modeling and Problem Solving / IPSJ Special Interest Group on Bioinformatics and Genomics |
---|---|
本文の言語 | ENG |
タイトル(和) | |
サブタイトル(和) | |
タイトル(英) | Hybrid Reinforcement and Imitation Learning for Human-Like Agents |
サブタイトル(和) | |
キーワード(1)(和/英) | 自動運転 / Autonomous Driving |
キーワード(2)(和/英) | ゲームAI / Game AI |
キーワード(3)(和/英) | 人間らしさ / Human-Like Behavior |
キーワード(4)(和/英) | 模倣学習 / Imitation Learning |
キーワード(5)(和/英) | 強化学習 / Reinforcement Learning |
第 1 著者 氏名(和/英) | ドッサ ルスラン フェルナン ジュリアン / Rousslan Fernand Julien Dossa |
第 1 著者 所属(和/英) | 神戸大学(略称:神戸大) Kobe University(略称:Kobe Uni) |
第 2 著者 氏名(和/英) | 連 欣瑜 / Xinyu Lian |
第 2 著者 所属(和/英) | 神戸大学(略称:神戸大) Kobe University(略称:Kobe Uni) |
第 3 著者 氏名(和/英) | 野本 洋一 / Hirokazu Nomoto |
第 3 著者 所属(和/英) | 株式会社エクォス・リサーチ(略称:*) EQUOS RESEARCH Co., Ltd.(略称:*) |
第 4 著者 氏名(和/英) | 松原 崇 / Takashi Matsubara |
第 4 著者 所属(和/英) | 神戸大学(略称:神戸大) Kobe University(略称:Kobe Uni) |
第 5 著者 氏名(和/英) | 上原 邦昭 / Kuniaki Uehara |
第 5 著者 所属(和/英) | 神戸大学(略称:神戸大) Kobe University(略称:Kobe Uni) |
発表年月日 | 2019-06-18 |
資料番号 | NC2019-16,IBISML2019-14 |
巻番号(vol) | vol.119 |
号番号(no) | NC-88,IBISML-89 |
ページ範囲 | pp.69-74(NC), pp.91-96(IBISML), |
ページ数 | 6 |
発行日 | 2019-06-10 (NC, IBISML) |