お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2019-03-04 10:45
強化学習における相互情報量を用いた探索行動の調整
小山凱史大久保 潤埼玉大NC2018-51
抄録 (和) 強化学習の問題として「探索と利用のトレードオフ」への対処がある.本研究では,例えば迷路の壁が突然現れたり消えたりするなどの環境が突然変化するような実験設定において,相互情報量を探索ボーナスとして用いる手法を提案する.これまでに環境が突然変化するような環境設定において,エントロピーを利用した探索ボーナスや,ボルツマン選択則でのメタパラメータの制御を行うことで行動選択を制御する手法などが提案されていた.ここではメタパラメータの制御との組み合わせも含めて,相互情報量を探索ボーナスとして用いる提案手法の$Q$学習への実装を行い,数値実験を実施した.その結果より,相互情報量を用いた探索ボーナスが探索行動に影響を与え,探索行動を促進させることがわかった. 
(英) One of the important problems in reinforcement learning is the
exploration-exploitation trade-off. In this research, we propose a
method to use mutual information as a exploration bonus in experimental
settings with sudden environmental change; for example, we consider a
maze problem in which walls will suddenly appear or disappear. As for
the environmental changes, there are some previous researches such as
the usage of entropy as exploration bonus and a meta-parameter control
method in Boltzmann selection rule. Here, the proposed method using the
mutual information is implemented in the Q learning, including the
meta-parameter control method, and numerical experiments are performed.
The numerical results show that the mutual information can work well as
the exploration bonus.
キーワード (和) 強化学習 / 相互情報量 / / / / / /  
(英) reinforcement learning / mutual information / / / / / /  
文献情報 信学技報, vol. 118, no. 470, NC2018-51, pp. 43-47, 2019年3月.
資料番号 NC2018-51 
発行日 2019-02-25 (NC) 
ISSN Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード NC2018-51

研究会情報
研究会 NC MBE  
開催期間 2019-03-04 - 2019-03-06 
開催地(和) 電気通信大学 
開催地(英) University of Electro Communications 
テーマ(和) NC, ME, 一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 NC 
会議コード 2019-03-NC-MBE 
本文の言語 日本語 
タイトル(和) 強化学習における相互情報量を用いた探索行動の調整 
サブタイトル(和)  
タイトル(英) Adjustment of exploratory behavior using mutual information in reinforcement learning 
サブタイトル(英)  
キーワード(1)(和/英) 強化学習 / reinforcement learning  
キーワード(2)(和/英) 相互情報量 / mutual information  
キーワード(3)(和/英) /  
キーワード(4)(和/英) /  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 小山 凱史 / Kaiji Koyama / コヤマ カイジ
第1著者 所属(和/英) 埼玉大学 (略称: 埼玉大)
Saitama University (略称: Saitama Univ.)
第2著者 氏名(和/英/ヨミ) 大久保 潤 / Jun Ohkubo / オオクボ ジュン
第2著者 所属(和/英) 埼玉大学 (略称: 埼玉大)
Saitama University (略称: Saitama Univ.)
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2019-03-04 10:45:00 
発表時間 25分 
申込先研究会 NC 
資料番号 NC2018-51 
巻番号(vol) vol.118 
号番号(no) no.470 
ページ範囲 pp.43-47 
ページ数
発行日 2019-02-25 (NC) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会