講演名 2010-12-19
行動履歴に基づく動的強化関数を用いたProfit Sharing強化学習法
角矢 政紀, 中野 秀洋, 宮内 新,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) Profit Sharing(PS)強化学習法は,マルコフ決定過程(MDP)で記述される環境だけではなく,部分観測MDP環境などの非MDP環境に対しても比較的頑健に学習できることが知られている.また,PS強化学習法は報酬分配の際に用いる強化関数を工夫することで,学習効率を大きく向上させることができる.本稿では,学習エージェントが実行した行動履歴に基づく強化関数を用いたPS強化学習法を提案する.本手法を用いれば,部分観測MDP環境に対しても,学習の混乱がほとんど生じることなく効率的な学習が可能となる.数値実験を行い,提案手法の有効性を確認する.
抄録(英) A Profit Sharing Reinforcement Learning (PSRL) method can realize robust learning not only in Markov Decision Process (MDP) environments but also in non-MDP environments such as Partially Observable MDP (POMDP) environments. The learning efficiency of the PSRL is significantly improved if a reinforcement function used in distributing rewards can be appropriately designed. In this paper, a PSRL method using a reinforcement function which is based on action history of learning agents is proposed. Using this method, efficient learning is possible even for POMDP environments. Through numerical experiments, effectiveness of the proposed method can be verified.
キーワード(和) 強化学習 / Profit Sharing / 強化関数 / 経験強化型学習
キーワード(英) Reinforcement Learning / Profit Sharing / Reinforcement Function / Exploitation-Oriented Learning
資料番号 MBE2010-73,NC2010-84
発行日

研究会情報
研究会 MBE
開催期間 2010/12/12(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 ME and Bio Cybernetics (MBE)
本文の言語 JPN
タイトル(和) 行動履歴に基づく動的強化関数を用いたProfit Sharing強化学習法
サブタイトル(和)
タイトル(英) The Profit Sharing strengthening learning method using the dynamic strengthening function based on an action history
サブタイトル(和)
キーワード(1)(和/英) 強化学習 / Reinforcement Learning
キーワード(2)(和/英) Profit Sharing / Profit Sharing
キーワード(3)(和/英) 強化関数 / Reinforcement Function
キーワード(4)(和/英) 経験強化型学習 / Exploitation-Oriented Learning
第 1 著者 氏名(和/英) 角矢 政紀 / Masanori KAKUYA
第 1 著者 所属(和/英) 東京都市大学
Tokyo City University
第 2 著者 氏名(和/英) 中野 秀洋 / Hidehiro NAKANO
第 2 著者 所属(和/英) 東京都市大学
Tokyo City University
第 3 著者 氏名(和/英) 宮内 新 / Arata MIYAUTI
第 3 著者 所属(和/英) 東京都市大学
Tokyo City University
発表年月日 2010-12-19
資料番号 MBE2010-73,NC2010-84
巻番号(vol) vol.110
号番号(no) 354
ページ範囲 pp.-
ページ数 6
発行日