LTL制約の下でのMDPに対するスーパバイザの強化学習

◎広本将基; 潮　俊光

大会名称
2016年総合大会
大会コ－ド
2016G
開催年
2016
発行日
2016/3/1
セッション番号
A-10
セッション名
システム数理と応用
講演日
2016/3/16
講演場所(会議室等)
総合学習プラザ　2F　第13講義室
講演番号
A-10-11
タイトル
LTL制約の下でのMDPに対するスーパバイザの強化学習
著者名
◎広本将基, 潮　俊光,
キーワード
離散事象システム, マルコフ決定過程, スーパバイザ制御, 強化学習, 時相論理
抄録
マルコフ決定過程（MDP）でモデル化される離散事象システムにおける制御器設計に強化学習が応用されている。強化学習では、状態遷移に対してスカラー値で報酬が設定されており、学習を行うエージェントは割引き付き報酬和（収益）の最大化を目的に制御側を学習する。線形時相論理（LTL）はパスの定性的な性質を表現できる論理体系である。本報告では、事象の生起にコストがかかると仮定し、LTL式で与えられた制御仕様を満たしつつ、コスト収益に関する目的関数を最適化する制御則を求めるための学習アルゴリズムを提案する。なお、筆者が以前に提案した手法では、LTL式を満たさない事象を選択する可能性があったが、提案手法ではその可能性はない。
本文pdf
PDF download PayPerView