講演名 2002/3/11
部分観測マルコフ決定過程下の強化学習のためのパルスニューラルネットワーク学習則
瀧田 航一朗, 萩原 将文,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) パルスニューラルネットワークのための学習則として,パルスニューロン素子の時系列処理能力に着目した新しい強化学習則を提案する.提案モデルでは,減衰率の異なるパルスニューロン素子を組み合わせることで,時系列的な入力情報を処理し,部分観測マルコフ決定過程における曖昧な状態の識別を行っている.提案するネットワークは四層のフィードフォワード型ネットワークであり,二層の隠れ層を構成するパルスニューロン素子が擬似的に環境中の状態を表現する.これらの素子は二次的な強化信号を生成することで,状態の評価関数に基づく従来の強化学習方式と類似した学習が可能となっている.計算機実験により,提案モデルが部分観測性の強い環境において有効に働くことを確認した.
抄録(英) In this paper, we propose a new pulse neural network model and its reinforcement learning algorithm. The network is a feed-forward network with two hidden layers. The first hidden layer consists of pulse neurons with low decay rate of internal state, and the second layer consists of pulse neurons with high decay rate. The main purpose of this model is to utilize pulse neurons' ability for handling sequential input in partially observable Markov decision process. Its performance is confirmed by two kinds of computer simulations.
キーワード(和) パルスニューラルネットワーク / 強化学習 / 部分観測マルコフ決定過程
キーワード(英) pulse neural network / reinforcement learning / partially observable Markov decision process
資料番号 NC2001-148
発行日

研究会情報
研究会 NC
開催期間 2002/3/11(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Neurocomputing (NC)
本文の言語 JPN
タイトル(和) 部分観測マルコフ決定過程下の強化学習のためのパルスニューラルネットワーク学習則
サブタイトル(和)
タイトル(英) A Pulse Neural Network Reinforcement Learning Algorithm for Partially Observable Markov Decision Process
サブタイトル(和)
キーワード(1)(和/英) パルスニューラルネットワーク / pulse neural network
キーワード(2)(和/英) 強化学習 / reinforcement learning
キーワード(3)(和/英) 部分観測マルコフ決定過程 / partially observable Markov decision process
第 1 著者 氏名(和/英) 瀧田 航一朗 / Koichiro TAKITA
第 1 著者 所属(和/英) 慶應義塾大学理工学部
Faculty of Science and Technology, Keio University
第 2 著者 氏名(和/英) 萩原 将文 / Masafumi HAGIWARA
第 2 著者 所属(和/英) 慶應義塾大学理工学部
Faculty of Science and Technology, Keio University
発表年月日 2002/3/11
資料番号 NC2001-148
巻番号(vol) vol.101
号番号(no) 735
ページ範囲 pp.-
ページ数 8
発行日