強化学習における相互情報量を用いた探索行動の調整

小山 凱史; 大久保 潤

講演名	2019-03-04 強化学習における相互情報量を用いた探索行動の調整小山凱史(埼玉大), 大久保潤(埼玉大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	強化学習の問題として「探索と利用のトレードオフ」への対処がある．本研究では，例えば迷路の壁が突然現れたり消えたりするなどの環境が突然変化するような実験設定において，相互情報量を探索ボーナスとして用いる手法を提案する．これまでに環境が突然変化するような環境設定において，エントロピーを利用した探索ボーナスや，ボルツマン選択則でのメタパラメータの制御を行うことで行動選択を制御する手法などが提案されていた．ここではメタパラメータの制御との組み合わせも含めて，相互情報量を探索ボーナスとして用いる提案手法の$Q$学習への実装を行い，数値実験を実施した．その結果より，相互情報量を用いた探索ボーナスが探索行動に影響を与え，探索行動を促進させることがわかった．
抄録(英)	One of the important problems in reinforcement learning is the exploration-exploitation trade-off. In this research, we propose a method to use mutual information as a exploration bonus in experimental settings with sudden environmental change; for example, we consider a maze problem in which walls will suddenly appear or disappear. As for the environmental changes, there are some previous researches such as the usage of entropy as exploration bonus and a meta-parameter control method in Boltzmann selection rule. Here, the proposed method using the mutual information is implemented in the Q learning, including the meta-parameter control method, and numerical experiments are performed. The numerical results show that the mutual information can work well as the exploration bonus.
キーワード(和)	強化学習 / 相互情報量
キーワード(英)	reinforcement learning / mutual information
資料番号	NC2018-51
発行日	2019-02-25 (NC)

研究会情報
研究会	NC / MBE
開催期間	2019/3/4(から3日開催)
開催地（和）	電気通信大学
開催地（英）	University of Electro Communications
テーマ（和）	NC, ME, 一般
テーマ（英）
委員長氏名（和）	平田豊(中部大) / 京相雅樹(東京都市大)
委員長氏名（英）	Yutaka Hirata(Chubu Univ.) / Masaki Kyoso(TCU)
副委員長氏名（和）	庄野逸(電通大) / 野村泰伸(阪大)
副委員長氏名（英）	Hayaru Shouno(UEC) / Taishin Nomura(Osaka Univ.)
幹事氏名（和）	吉川大弘(名大) / 吉本潤一郎(奈良先端大) / 永岡隆(近畿大)
幹事氏名（英）	Tomohiro Yoshikawa(Nagoya Univ.) / Junichiro Yoshimoto(NAIST) / Takashi Nagaoka(Kindai Univ.)
幹事補佐氏名（和）	稲垣圭一郎(中部大) / 篠崎隆志(NICT) / 小林匠(横浜国大) / 鈴木康之(阪大)
幹事補佐氏名（英）	Keiichiro Inagaki(Chubu Univ.) / Takashi Shinozaki(NICT) / Takumi Kobayashi(YNU) / ＹａｓｕｙｕｋｉＳｕｚｕｋｉ(Osaka Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Neurocomputing / Technical Committee on ME and Bio Cybernetics
本文の言語	JPN
タイトル（和）	強化学習における相互情報量を用いた探索行動の調整
サブタイトル（和）
タイトル（英）	Adjustment of exploratory behavior using mutual information in reinforcement learning
サブタイトル（和）
キーワード(1)（和/英）	強化学習 / reinforcement learning
キーワード(2)（和/英）	相互情報量 / mutual information
第 1 著者氏名（和/英）	小山凱史 / Kaiji Koyama
第 1 著者所属（和/英）	埼玉大学(略称：埼玉大) Saitama University(略称：Saitama Univ.)
第 2 著者氏名（和/英）	大久保潤 / Jun Ohkubo
第 2 著者所属（和/英）	埼玉大学(略称：埼玉大) Saitama University(略称：Saitama Univ.)
発表年月日	2019-03-04
資料番号	NC2018-51
巻番号（vol）	vol.118
号番号（no）	NC-470
ページ範囲	pp.43-47(NC),
ページ数	5
発行日	2019-02-25 (NC)