講演名 2022-09-15
迅速な学習機構を用いて逐次適応性を損なうことなく非線形性を扱う文脈付き多腕バンディット手法
三宅 悠介(GMOペパボ/九大), 峯 恒憲(九大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 情報システムが扱えるデータの種類と量の増加に伴い,情報システムに求められる意思決定の問題設定も複雑で高度化してきている.特に,利用者から逐次的に出される多様かつ継続的に変化する要求への適応(逐次適応性)が求められており,そのためには,意思決定基準を遅延なく更新できる意思決定機構を持つことが望まれる.しかし,この機構を定式化した文脈付き多腕バンディット問題に対する従来の解法の多くは,文脈と報酬の間に単純な線形の関係性を仮定するため,複雑な意思決定の実現には適さない.一方で,非線形な関係性も扱えるニューラルネットワーク(NN)を導入する解法では,複雑さの解決に起因する学習時間の増加から逐次適応性が損なわれる.本報告では,反復的な学習が不要なNNモデルであるExtreme Learning Machineを多腕バンディット解法に統合することで,複雑な意思決定に対する逐次適応性を損なわない手法を提案する.提案手法の評価では,非線形な文脈付き多腕バンディット問題のシミュレーションを通して,線形な解法に対して累積報酬が増加すること,ならびに反復的な学習を用いる非線形な解法に対して,同程度の累積報酬でありながら実行時間を大幅に短縮することを示した.
抄録(英)
キーワード(和) 多腕バンディット問題 / コンテキスト / ニューラルネットワーク / オンライン学習
キーワード(英)
資料番号 AI2022-22
発行日 2022-09-08 (AI)

研究会情報
研究会 AI
開催期間 2022/9/15(から2日開催)
開催地(和) アクトシティ浜松
開催地(英)
テーマ(和) 「マルチエージェントシステム」および一般(SMASH22 Summer Symposium)
テーマ(英)
委員長氏名(和) 清 雄一(電通大)
委員長氏名(英) Yuichi Sei(Univ. of Electro-Comm.)
副委員長氏名(和) 櫻井 祐子(産総研) / 大囿 忠親(名工大)
副委員長氏名(英) Yuko Sakurai(AIST) / Tadachika Ozono(Nagoya Inst. of Tech.)
幹事氏名(和) 藤田 桂英(東京農工大) / 中島 悠(東邦大)
幹事氏名(英) Katsuhide Fujita(Tokyo Univ. of Agriculture and Technology) / Yuu Nakajima(Toho Univ.)
幹事補佐氏名(和) 松崎 和賢(中大)
幹事補佐氏名(英) Kazutaka Matsuzaki(Chuo Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Artificial Intelligence and Knowledge-Based Processing
本文の言語 JPN-ONLY
タイトル(和) 迅速な学習機構を用いて逐次適応性を損なうことなく非線形性を扱う文脈付き多腕バンディット手法
サブタイトル(和)
タイトル(英)
サブタイトル(和)
キーワード(1)(和/英) 多腕バンディット問題
キーワード(2)(和/英) コンテキスト
キーワード(3)(和/英) ニューラルネットワーク
キーワード(4)(和/英) オンライン学習
第 1 著者 氏名(和/英) 三宅 悠介 / Yusuke Miyake
第 1 著者 所属(和/英) GMOペパボ株式会社/九州大学(略称:GMOペパボ/九大)
GMO Pepabo, Inc./Kyushu University(略称:GMO Pepabo, Inc./Kyushu Univ.)
第 2 著者 氏名(和/英) 峯 恒憲 / Tsunenori Mine
第 2 著者 所属(和/英) 九州大学(略称:九大)
Kyushu University(略称:Kyushu Univ.)
発表年月日 2022-09-15
資料番号 AI2022-22
巻番号(vol) vol.122
号番号(no) AI-186
ページ範囲 pp.25-30(AI),
ページ数 6
発行日 2022-09-08 (AI)