講演抄録/キーワード |
講演名 |
2013-09-03 10:45
順列バンディット問題における新しいUCB型アルゴリズム ○渡辺 僚・中村篤祥・工藤峰一(北大) COMP2013-26 |
抄録 |
(和) |
順列バンディット問題とは組み合わせ的多腕バンディット問題の一種で, $N$個のものから$M$個取り出し並べる順列を選択するバンディット問題である. この問題に対するUCB型アルゴリズムとして, MLPSやLLRといった多項式空間計算量アルゴリズムが考えられている.
本稿では, 選択指標の不信頼度を示す値として報酬の推定値のもつ標準偏差に近い値を用いるアルゴリズムPLSDを提案する, MLPSやLLRより低い期待リグレットの上界を理論的に示すとともに, 人工データや実データを用いた計算機シミュレーションにより有効性の検証を行った. |
(英) |
Permutation bandit problem is a kind of combinatorial multi-armed bandit problem in which an $M$-permutation of $N$ elements corresponds to slot machine.
As a UCB-based approach for this problem, polynomial-space algorithms MLPS and LLR have been developed.
In this paper, we propose a new UCB-based algorithm that uses the value closer to the standard deviation of estimator of reward than MLPS and LLR as the exploration term of the selection index. We show a smaller upper bound of expected regret theoretically and larger cumulative rewards empirically compared to MLPS and LLR. |
キーワード |
(和) |
オンライン学習 / 多腕バンディット問題 / 順列 / 整数計画問題 / / / / |
(英) |
Online learning / Multi-armed bandit problem / Permutations / Integer programming / / / / |
文献情報 |
信学技報, vol. 113, no. 198, COMP2013-26, pp. 9-16, 2013年9月. |
資料番号 |
COMP2013-26 |
発行日 |
2013-08-27 (COMP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
COMP2013-26 |
研究会情報 |
研究会 |
COMP |
開催期間 |
2013-09-03 - 2013-09-03 |
開催地(和) |
鳥取環境大学 |
開催地(英) |
|
テーマ(和) |
|
テーマ(英) |
|
講演論文情報の詳細 |
申込み研究会 |
COMP |
会議コード |
2013-09-COMP |
本文の言語 |
日本語 |
タイトル(和) |
順列バンディット問題における新しいUCB型アルゴリズム |
サブタイトル(和) |
|
タイトル(英) |
A New UCB-based Algorithm for the Matching-Selection Multi-armed Bandit Problem |
サブタイトル(英) |
|
キーワード(1)(和/英) |
オンライン学習 / Online learning |
キーワード(2)(和/英) |
多腕バンディット問題 / Multi-armed bandit problem |
キーワード(3)(和/英) |
順列 / Permutations |
キーワード(4)(和/英) |
整数計画問題 / Integer programming |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
渡辺 僚 / Ryo Watanabe / ワタナベ リョウ |
第1著者 所属(和/英) |
北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.) |
第2著者 氏名(和/英/ヨミ) |
中村 篤祥 / Atsuyoshi Nakamura / ナカムラ アツヨシ |
第2著者 所属(和/英) |
北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.) |
第3著者 氏名(和/英/ヨミ) |
工藤 峰一 / Mineichi Kudo / クドウ ミネイチ |
第3著者 所属(和/英) |
北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2013-09-03 10:45:00 |
発表時間 |
35分 |
申込先研究会 |
COMP |
資料番号 |
COMP2013-26 |
巻番号(vol) |
vol.113 |
号番号(no) |
no.198 |
ページ範囲 |
pp.9-16 |
ページ数 |
8 |
発行日 |
2013-08-27 (COMP) |