バンディット問題への保守的な推定の導入に向けた一考察

木村凌大; 菊地真人; 大囿忠親

大会名称
2022年情報科学技術フォーラム(FIT)
大会コ－ド
F
開催年
2022
発行日
2022-08-30
セッション番号
5g
セッション名
情報論的学習理論と機械学習(4)
講演日
2022/09/14
講演場所(会議室等)
12棟-202A教室
講演番号
F-040
タイトル
バンディット問題への保守的な推定の導入に向けた一考察
著者名
木村凌大, 菊地真人, 大囿忠親,
キーワード
保守的な推定, 低頻度, バンディット問題
抄録
バンディット問題においてアームの当たる確率は，引いた回数に対する当たった回数の比で求められることが多い．しかしこの確率推定法を用いると，アームの引ける回数がごく少数に限られるとき，当たる確率は低いが報酬は大きいアームの期待報酬を過大に見積もってしまうことがある．これは，引いた回数が少ないときに確率が過大推定されるためである．一方で我々は先行研究において，試行回数の少なさに応じて確率を低めに見積もる“保守的な推定法”を考案した．以上より本稿では，バンディット問題の単純方策であるε-greedy法に保守的な推定法を組み合わせる．そしてアームの引ける回数が少ないとき，通常のε-greedy法よりも良腕の予測性能が向上する場合があることを示す．
本文pdf
PDF download (479.6KB)