講演名 2004-07-29
POMDPs環境下での経験強化型強化学習法(「セマンティックWeb」特集及び一般)
植村 渉, 上野 敦志, 辰巳 昭治,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 強化学習法は,試行錯誤により報酬を獲得し,その報酬情報により行動系列を評価する方法である.Profit Sharing法では,報酬を行動系列に分配し,累積することで評価する.従来の分配方法では,POMDPs環境で正しく累積できない場合があることが知られている.本研究では,正しく累積できない理由が報酬分配時の分配量の差にあることを明らかにする.また,報酬分配時の分配量に差をつけず,行動系列の長さを分配量に考慮した分配方法Episode Profit Sharing(EPS)を提案する.EPSの分配方法が,迂回系列の強化を行わないことを証明し,実験により性能を確認する.
抄録(英) This paper proposes the Episode Profit Sharing(EPS) that can estimate the received rewards on partially observable markov decision processes(POMDPs). EPS equally evaluates all rules in an episode. And EPS distributes the values corresponding to the length of the episode to the rules. We show that EPS can suppress the reinforcement of the detour rules. The experiments show that EPS can get the good performance on both MDPs and POMDPs.
キーワード(和) 強化学習 / Profit Sharing法 / 部分観測マルコフ決定過程 / 不完全知覚
キーワード(英) Reinforcement Learning / Profit Sharing / POMDPs / Perceptual Aliasing
資料番号 AI2004-12
発行日

研究会情報
研究会 AI
開催期間 2004/7/22(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Artificial Intelligence and Knowledge-Based Processing (AI)
本文の言語 JPN
タイトル(和) POMDPs環境下での経験強化型強化学習法(「セマンティックWeb」特集及び一般)
サブタイトル(和)
タイトル(英) The Exploitation Reinforcement Learning Method on POMDPs
サブタイトル(和)
キーワード(1)(和/英) 強化学習 / Reinforcement Learning
キーワード(2)(和/英) Profit Sharing法 / Profit Sharing
キーワード(3)(和/英) 部分観測マルコフ決定過程 / POMDPs
キーワード(4)(和/英) 不完全知覚 / Perceptual Aliasing
第 1 著者 氏名(和/英) 植村 渉 / Wataru UEMURA
第 1 著者 所属(和/英) 大阪市立大学大学院工学研究科電子情報系専攻
Faculty of Engineering, Osaka City University
第 2 著者 氏名(和/英) 上野 敦志 / Atsushi UENO
第 2 著者 所属(和/英) 大阪市立大学大学院工学研究科電子情報系専攻
Faculty of Engineering, Osaka City University
第 3 著者 氏名(和/英) 辰巳 昭治 / Shoji TATSUMI
第 3 著者 所属(和/英) 大阪市立大学大学院工学研究科電子情報系専攻
Faculty of Engineering, Osaka City University
発表年月日 2004-07-29
資料番号 AI2004-12
巻番号(vol) vol.104
号番号(no) 233
ページ範囲 pp.-
ページ数 5
発行日