大会名称
2022年 情報科学技術フォーラム(FIT)
大会コ-ド
F
開催年
2022
発行日
2022-08-30
セッション番号
5g
セッション名
情報論的学習理論と機械学習(4)
講演日
2022/09/14
講演場所(会議室等)
12棟-202A教室
講演番号
F-040
タイトル
バンディット問題への保守的な推定の導入に向けた一考察
著者名
木村凌大菊地真人大囿忠親
キーワード
保守的な推定, 低頻度, バンディット問題
抄録
バンディット問題においてアームの当たる確率は,引いた回数に対する当たった回数の比で求められることが多い.しかしこの確率推定法を用いると,アームの引ける回数がごく少数に限られるとき,当たる確率は低いが報酬は大きいアームの期待報酬を過大に見積もってしまうことがある.これは,引いた回数が少ないときに確率が過大推定されるためである.一方で我々は先行研究において,試行回数の少なさに応じて確率を低めに見積もる“保守的な推定法”を考案した.以上より本稿では,バンディット問題の単純方策であるε-greedy法に保守的な推定法を組み合わせる.そしてアームの引ける回数が少ないとき,通常のε-greedy法よりも良腕の予測性能が向上する場合があることを示す.
本文pdf
PDF download (479.6KB)