講演名 | 2003/1/24 マルチエージェント系における方策勾配法 : 追跡問題 石原 聖司, 五十嵐 治一, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | マルチエージェント系における行動学習法として方策勾配法を用いる強化学習方式を提案する.本方式では,自律分散的な行動方式を採用することにより,マルチエージェント系の行動決定問題を各エージェント内で定義されたある目的関数の最小化問題に帰着させる.目的関数は,状態の価値,状態・行動ルール,ポテンシャル等の項によって表現することができる.本方式による学習則は,これらの項に含まれるパラメータを,ボルツマン分布による確率的方策から得られる系の行動計画に対する評価関数の期待値が最大となるよう確率的勾配法によって更新するものである.本方式の適用例として,追跡問題に対する実験の結果を合わせて報告する.実験の結果,本方式によって良好な方策が得られることを確認した.さらに,本方式は,方策中への行動制約や目的の変更追加,ヒューリスティクスの利用に柔軟に対応できることを示した. |
抄録(英) | We propose a method using the policy gradient for reinforcement learning in multi-agent systems. In our approach, motion planning problems in multi-agent systems are formulated as problems that each agent selects its actions to minimize each objective function independently. The objective function can be defined by a state-value function, the sum of weight parameters of state-action rules, and heuristic potentials. The functions include some parameters. The parameters are updated stochastically in order to maximize the expectation of the reward based on a history of states and actions in each episode. The results of experiments for the pursuit problem showed that our method can make short episode plans as Q-learning does, and can easily deal with limitations such as time-window restrictions imposed on the episode length and heuristic knowledge such as an attractive potential to the target. |
キーワード(和) | 強化学習 / 方策勾配法 / 追跡問題 / マルチエージェント系 |
キーワード(英) | reinforcement learning / policy gradient method / pursuit problem / multi-agent system |
資料番号 | AI2002-58 |
発行日 |
研究会情報 | |
研究会 | AI |
---|---|
開催期間 | 2003/1/24(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Artificial Intelligence and Knowledge-Based Processing (AI) |
---|---|
本文の言語 | JPN |
タイトル(和) | マルチエージェント系における方策勾配法 : 追跡問題 |
サブタイトル(和) | |
タイトル(英) | Policy Gradient Method in Multi-Agent Systems : Pursuit Problem |
サブタイトル(和) | |
キーワード(1)(和/英) | 強化学習 / reinforcement learning |
キーワード(2)(和/英) | 方策勾配法 / policy gradient method |
キーワード(3)(和/英) | 追跡問題 / pursuit problem |
キーワード(4)(和/英) | マルチエージェント系 / multi-agent system |
第 1 著者 氏名(和/英) | 石原 聖司 / Seiji ISHIHARA |
第 1 著者 所属(和/英) | 近畿大学工学部 School of Engineering,Kinki University |
第 2 著者 氏名(和/英) | 五十嵐 治一 / Harukazu IGARASHI |
第 2 著者 所属(和/英) | 近畿大学工学部 School of Engineering,Kinki University |
発表年月日 | 2003/1/24 |
資料番号 | AI2002-58 |
巻番号(vol) | vol.102 |
号番号(no) | 615 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |