お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2013-09-03 10:45
順列バンディット問題における新しいUCB型アルゴリズム
渡辺 僚中村篤祥工藤峰一北大COMP2013-26
抄録 (和) 順列バンディット問題とは組み合わせ的多腕バンディット問題の一種で, $N$個のものから$M$個取り出し並べる順列を選択するバンディット問題である. この問題に対するUCB型アルゴリズムとして, MLPSやLLRといった多項式空間計算量アルゴリズムが考えられている.
本稿では, 選択指標の不信頼度を示す値として報酬の推定値のもつ標準偏差に近い値を用いるアルゴリズムPLSDを提案する, MLPSやLLRより低い期待リグレットの上界を理論的に示すとともに, 人工データや実データを用いた計算機シミュレーションにより有効性の検証を行った. 
(英) Permutation bandit problem is a kind of combinatorial multi-armed bandit problem in which an $M$-permutation of $N$ elements corresponds to slot machine.
As a UCB-based approach for this problem, polynomial-space algorithms MLPS and LLR have been developed.

In this paper, we propose a new UCB-based algorithm that uses the value closer to the standard deviation of estimator of reward than MLPS and LLR as the exploration term of the selection index. We show a smaller upper bound of expected regret theoretically and larger cumulative rewards empirically compared to MLPS and LLR.
キーワード (和) オンライン学習 / 多腕バンディット問題 / 順列 / 整数計画問題 / / / /  
(英) Online learning / Multi-armed bandit problem / Permutations / Integer programming / / / /  
文献情報 信学技報, vol. 113, no. 198, COMP2013-26, pp. 9-16, 2013年9月.
資料番号 COMP2013-26 
発行日 2013-08-27 (COMP) 
ISSN Print edition: ISSN 0913-5685    Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード COMP2013-26

研究会情報
研究会 COMP  
開催期間 2013-09-03 - 2013-09-03 
開催地(和) 鳥取環境大学 
開催地(英)  
テーマ(和)  
テーマ(英)  
講演論文情報の詳細
申込み研究会 COMP 
会議コード 2013-09-COMP 
本文の言語 日本語 
タイトル(和) 順列バンディット問題における新しいUCB型アルゴリズム 
サブタイトル(和)  
タイトル(英) A New UCB-based Algorithm for the Matching-Selection Multi-armed Bandit Problem 
サブタイトル(英)  
キーワード(1)(和/英) オンライン学習 / Online learning  
キーワード(2)(和/英) 多腕バンディット問題 / Multi-armed bandit problem  
キーワード(3)(和/英) 順列 / Permutations  
キーワード(4)(和/英) 整数計画問題 / Integer programming  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 渡辺 僚 / Ryo Watanabe / ワタナベ リョウ
第1著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第2著者 氏名(和/英/ヨミ) 中村 篤祥 / Atsuyoshi Nakamura / ナカムラ アツヨシ
第2著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第3著者 氏名(和/英/ヨミ) 工藤 峰一 / Mineichi Kudo / クドウ ミネイチ
第3著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2013-09-03 10:45:00 
発表時間 35分 
申込先研究会 COMP 
資料番号 COMP2013-26 
巻番号(vol) vol.113 
号番号(no) no.198 
ページ範囲 pp.9-16 
ページ数
発行日 2013-08-27 (COMP) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会