大会名称 |
---|
2022年 情報科学技術フォーラム(FIT) |
大会コ-ド |
F |
開催年 |
2022 |
発行日 |
2022-08-30 |
セッション番号 |
5g |
セッション名 |
情報論的学習理論と機械学習(4) |
講演日 |
2022/09/14 |
講演場所(会議室等) |
12棟-202A教室 |
講演番号 |
F-040 |
タイトル |
バンディット問題への保守的な推定の導入に向けた一考察 |
著者名 |
木村凌大, 菊地真人, 大囿忠親, |
キーワード |
保守的な推定, 低頻度, バンディット問題 |
抄録 |
バンディット問題においてアームの当たる確率は,引いた回数に対する当たった回数の比で求められることが多い.しかしこの確率推定法を用いると,アームの引ける回数がごく少数に限られるとき,当たる確率は低いが報酬は大きいアームの期待報酬を過大に見積もってしまうことがある.これは,引いた回数が少ないときに確率が過大推定されるためである.一方で我々は先行研究において,試行回数の少なさに応じて確率を低めに見積もる“保守的な推定法”を考案した.以上より本稿では,バンディット問題の単純方策であるε-greedy法に保守的な推定法を組み合わせる.そしてアームの引ける回数が少ないとき,通常のε-greedy法よりも良腕の予測性能が向上する場合があることを示す. |
本文pdf |
PDF download (479.6KB) |