複素強化学習における負の報酬の及ぼす影響について

澁谷 長史; 濱上 知樹

大会名称
2009年情報科学技術フォーラム(FIT)
大会コ－ド
F
開催年
2009
発行日
2009/8/20
セッション番号
4G
セッション名
学習
講演日
2009/09/03
講演場所(会議室等)
G会場（9号館2F　922教室）
講演番号
F-041
タイトル
複素強化学習における負の報酬の及ぼす影響について
著者名
澁谷長史, 濱上知樹,
キーワード
強化学習, 負の報酬
抄録
強化学習は,環境中のエージェントが自律的に望ましいふるまいを獲得するための学習の枠組みである。これまで筆者らは不完全知覚問題とよばれる問題のの解決のために複素強化学習という枠組みを提案してきた。複素強化学習は,行動のよさを表す価値関数を複素関数とし,行動の文脈を含んだ学習を行う手法である。しかし,これまでに提案されている複素強化学習のアルゴリズムには, 学習を促進するうえで重要な要素である゛負の報酬”を適切に扱えないという課題があった。そこで,本論文では,これまで提案してきたアルゴリズムを直接用いた場合に負の報酬が与える影響を明らかにし, 負の報酬が混在する環境においても学習可能なアルゴリズムを提案する。
本文pdf
PDF download (37.3KB)