講演名 | 2019-03-04 強化学習における相互情報量を用いた探索行動の調整 小山 凱史(埼玉大), 大久保 潤(埼玉大), |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 強化学習の問題として「探索と利用のトレードオフ」への対処がある.本研究では,例えば迷路の壁が突然現れたり消えたりするなどの環境が突然変化するような実験設定において,相互情報量を探索ボーナスとして用いる手法を提案する.これまでに環境が突然変化するような環境設定において,エントロピーを利用した探索ボーナスや,ボルツマン選択則でのメタパラメータの制御を行うことで行動選択を制御する手法などが提案されていた.ここではメタパラメータの制御との組み合わせも含めて,相互情報量を探索ボーナスとして用いる提案手法の$Q$学習への実装を行い,数値実験を実施した.その結果より,相互情報量を用いた探索ボーナスが探索行動に影響を与え,探索行動を促進させることがわかった. |
抄録(英) | One of the important problems in reinforcement learning is the exploration-exploitation trade-off. In this research, we propose a method to use mutual information as a exploration bonus in experimental settings with sudden environmental change; for example, we consider a maze problem in which walls will suddenly appear or disappear. As for the environmental changes, there are some previous researches such as the usage of entropy as exploration bonus and a meta-parameter control method in Boltzmann selection rule. Here, the proposed method using the mutual information is implemented in the Q learning, including the meta-parameter control method, and numerical experiments are performed. The numerical results show that the mutual information can work well as the exploration bonus. |
キーワード(和) | 強化学習 / 相互情報量 |
キーワード(英) | reinforcement learning / mutual information |
資料番号 | NC2018-51 |
発行日 | 2019-02-25 (NC) |
研究会情報 | |
研究会 | NC / MBE |
---|---|
開催期間 | 2019/3/4(から3日開催) |
開催地(和) | 電気通信大学 |
開催地(英) | University of Electro Communications |
テーマ(和) | NC, ME, 一般 |
テーマ(英) | |
委員長氏名(和) | 平田 豊(中部大) / 京相 雅樹(東京都市大) |
委員長氏名(英) | Yutaka Hirata(Chubu Univ.) / Masaki Kyoso(TCU) |
副委員長氏名(和) | 庄野 逸(電通大) / 野村 泰伸(阪大) |
副委員長氏名(英) | Hayaru Shouno(UEC) / Taishin Nomura(Osaka Univ.) |
幹事氏名(和) | 吉川 大弘(名大) / 吉本 潤一郎(奈良先端大) / 永岡 隆(近畿大) |
幹事氏名(英) | Tomohiro Yoshikawa(Nagoya Univ.) / Junichiro Yoshimoto(NAIST) / Takashi Nagaoka(Kindai Univ.) |
幹事補佐氏名(和) | 稲垣 圭一郎(中部大) / 篠崎 隆志(NICT) / 小林 匠(横浜国大) / 鈴木 康之(阪大) |
幹事補佐氏名(英) | Keiichiro Inagaki(Chubu Univ.) / Takashi Shinozaki(NICT) / Takumi Kobayashi(YNU) / Yasuyuki Suzuki(Osaka Univ.) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Neurocomputing / Technical Committee on ME and Bio Cybernetics |
---|---|
本文の言語 | JPN |
タイトル(和) | 強化学習における相互情報量を用いた探索行動の調整 |
サブタイトル(和) | |
タイトル(英) | Adjustment of exploratory behavior using mutual information in reinforcement learning |
サブタイトル(和) | |
キーワード(1)(和/英) | 強化学習 / reinforcement learning |
キーワード(2)(和/英) | 相互情報量 / mutual information |
第 1 著者 氏名(和/英) | 小山 凱史 / Kaiji Koyama |
第 1 著者 所属(和/英) | 埼玉大学(略称:埼玉大) Saitama University(略称:Saitama Univ.) |
第 2 著者 氏名(和/英) | 大久保 潤 / Jun Ohkubo |
第 2 著者 所属(和/英) | 埼玉大学(略称:埼玉大) Saitama University(略称:Saitama Univ.) |
発表年月日 | 2019-03-04 |
資料番号 | NC2018-51 |
巻番号(vol) | vol.118 |
号番号(no) | NC-470 |
ページ範囲 | pp.43-47(NC), |
ページ数 | 5 |
発行日 | 2019-02-25 (NC) |