比較バンディット問題における最適なアルゴリズム

小宮山 純平; 本多 淳也; 鹿島 久嗣; 中川 裕志

講演名	2015-06-23 比較バンディット問題における最適なアルゴリズム小宮山純平(東大), 本多淳也(東大), 鹿島久嗣(京大), 中川裕志(東大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	バンディット問題（multi-armed bandit problem）は、情報の活用と探索の間のトレードオフをモデル化した問題である。バンディット問題にはいくつかの亜種があるが、そのうち比較バンディット問題（dueling bandit problem）と呼ばれるものは、一対比較によるフィードバックを用いて最適化を行う。比較バンディット問題の枠組みを用いることによって、検索エンジンのランキング手法の比較や、人間の選好抽出の問題に対して、効率的な最適化を行うことができる。本研究では、比較バンディット問題における理論的な性能限界およびそれを達成するアルゴリズムを提案する。このアルゴリズムは、経験尤度を用いた通常のバンディット問題におけるアルゴリズム（本多，竹村，2010）の比較バンディット問題への拡張である。提案手法を評価するため、検索エンジンの実データにおけるランキング手法の比較や、寿司データセット（神嶌，2003）などによる人間の選好抽出における性能を既存手法と比較する。
抄録(英)	We study the K-armed dueling bandit problem, a variation of the standard stochastic bandit problem where the feedback is limited to relative comparisons of a pair of arms. Algorithms that are inspired by the Deterministic Minimum Empirical Divergence algorithm (Honda and Takemura, 2010) are proposed. The effectiveness of the proposed algorithms are assessed both theoretically and empirically.
キーワード(和)	バンディット問題 / 比較バンディット問題 / オンライン学習 / 選好学習
キーワード(英)	multi-armed bandit problem / dueling bandit problem / online learning / preference elicitation
資料番号	IBISML2015-14
発行日	2015-06-16 (IBISML)

研究会情報
研究会	NC / IPSJ-BIO / IBISML / IPSJ-MPS
開催期間	2015/6/23(から3日開催)
開催地（和）	沖縄科学技術大学院大学
開催地（英）	Okinawa Institute of Science and Technology
テーマ（和）	機械学習によるバイオデータマインニング、一般
テーマ（英）	Machine Learning Approach to Biodata Mining, and General
委員長氏名（和）	斎藤利通(法政大) / 関嶋政和(東工大) / 鷲尾隆(阪大) / 庄野逸(電通大)
委員長氏名（英）	Toshimichi Saito(Hosei Univ.) / Masakazu Sekijima(東工大) / Takashi Washio(Osaka Univ.) / Hayaru Shouno(電通大)
副委員長氏名（和）	佐藤茂雄(東北大) / / 福水健次(統計数理研) / 杉山将(東工大)
副委員長氏名（英）	Shigeo Sato(Tohoku Univ.) / / Kenji Fukumizu(ISM) / Masashi Sugiyama(Tokyo Inst. of Tech.)
幹事氏名（和）	堀尾恵一(九工大) / 田中宏喜(京都産大) / 大羽成征(京大) / 瀬々潤(お茶の水女子大) / 吉本潤一郎(OIST) / 松井知子(統計数理研) / 大羽成征(京大) / 小野智司(鹿児島大) / 但馬康宏(岡山県立大) / 林田守広(京大) / 岩田具治(NTT) / 吉田哲也(北大) / 松田健(静岡理工科大)
幹事氏名（英）	Keiichi Horio(Kyushu Inst. of Tech.) / Hiroki Tanaka(Kyoto Sangyo Univ.) / Shigeyuki Oba(京大) / Jun Sese(お茶の水女子大) / Junichiro Yoshimoto(OIST) / Tomoko Matsui(ISM) / Shigeyuki Ohba(Kyoto Univ.) / Satoshi Ono(鹿児島大) / Yasuhiro Tajima(岡山県立大) / Morihiro Hayashida(京大) / Tomoharu Iwata(NTT) / Tetsuya Yoshida(北大) / Takeshi Matsuda(静岡理工科大)
幹事補佐氏名（和）	神原裕行(東工大) / 秋間学尚(東北大) / / 津田宏治(東大) / 鹿島久嗣(京大)
幹事補佐氏名（英）	Hiroyuki Kanbara(Tokyo Inst. of Tech.) / Hisanao Akima(Tohoku Univ.) / / Koji Tsuda(Univ. of Tokyo) / Hisashi Kashima(Kyoto Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Neurocomputing / Special Interest Group on Bioinformatics and Genomics / Technical Committee on Infomation-Based Induction Sciences and Machine Learning / Special Interest Group on Mathematical Modeling and Problem Solving
本文の言語	JPN
タイトル（和）	比較バンディット問題における最適なアルゴリズム
サブタイトル（和）	ランキング手法比較や選好情報学習を目的として
タイトル（英）	Optimal Algorithms in Dueling Bandit Problem
サブタイトル（和）	*
キーワード(1)（和/英）	バンディット問題 / multi-armed bandit problem
キーワード(2)（和/英）	比較バンディット問題 / dueling bandit problem
キーワード(3)（和/英）	オンライン学習 / online learning
キーワード(4)（和/英）	選好学習 / preference elicitation
第 1 著者氏名（和/英）	小宮山純平 / Junpei Komiyama
第 1 著者所属（和/英）	東京大学(略称：東大) The University of Tokyo(略称：U-Tokyo)
第 2 著者氏名（和/英）	本多淳也 / Junya Honda
第 2 著者所属（和/英）	東京大学(略称：東大) The University of Tokyo(略称：U-Tokyo)
第 3 著者氏名（和/英）	鹿島久嗣 / Hisashi Kashima
第 3 著者所属（和/英）	京都大学(略称：京大) Kyoto University(略称：Kyoto University)
第 4 著者氏名（和/英）	中川裕志 / Hiroshi Nakagawa
第 4 著者所属（和/英）	東京大学(略称：東大) The University of Tokyo(略称：U-Tokyo)
発表年月日	2015-06-23
資料番号	IBISML2015-14
巻番号（vol）	vol.115
号番号（no）	IBISML-112
ページ範囲	pp.87-94(IBISML),
ページ数	8
発行日	2015-06-16 (IBISML)