FPGA実装に向けた強化学習モデルの丸め誤差と学習性能に関する考察

小口 大輔; 守谷 哲; 山本 英明; 佐藤 茂雄

講演名	2021-10-28 FPGA実装に向けた強化学習モデルの丸め誤差と学習性能に関する考察小口大輔(東北大), 守谷哲(東北大), 山本英明(東北大), 佐藤茂雄(東北大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	近年，機械学習の一つである強化学習はその幅広い可用性から，エッジコンピューティング向けにハードウェア実装が期待されている．しかし，強化学習アルゴリズムは計算コストが高く，回路リソースや消費電力に制約がかかるエッジデバイスに搭載する際の課題となっている．我々は，強化学習アルゴリズムを効率的に実行する専用ハードウェアアーキテクチャとFPGAでの実装について検討しており，本研究では行動価値（Q値）を表す変数のbit幅と学習性能の関係について調査した．FrozenLake迷路問題において，8 bit浮動小数点演算では学習性能が低下したが，16 bit浮動小数点演算ではCPU上での実行と並ぶ学習性能でありながら，回路リソースと消費電力の削減が可能となることを明らかにした．
抄録(英)	In recent years, the hardware implementation of reinforcement learning (RL) has attracted attention due to its wide range availability. We study a dedicated hardware architecture, which efficiently executes RL algorithm, and its realization in an FPGA. We investigated the learning performance when the bit-length was limited and found that the performance was maintained even when the bit-length was limited to 16, which results in saving circuit resources and power consumption.
キーワード(和)	強化学習 / FPGA / Q学習 / エッジコンピューティング
キーワード(英)	Reinforcement Learning / FPGA / Q-learning / Edge Computing
資料番号	NC2021-24
発行日	2021-10-21 (NC)

研究会情報
研究会	MBE / NC
開催期間	2021/10/28(から2日開催)
開催地（和）	オンライン開催
開催地（英）	Online
テーマ（和）	NC,ME，一般
テーマ（英）
委員長氏名（和）	奥野竜平(摂南大) / 大須理英子(早大)
委員長氏名（英）	Ryuhei Okuno(Setsunan Univ.) / Rieko Osu(Waseda Univ.)
副委員長氏名（和）	堀潤一(新潟大) / 山川宏(東大)
副委員長氏名（英）	Junichi Hori(Niigata Univ.) / Hiroshi Yamakawa(Univ of Tokyo)
幹事氏名（和）	中村英夫(大阪電気通信大) / 内部英治(ATR) / 西田知史(NICT)
幹事氏名（英）	Hideo Nakamura(Osaka Electro-Communication Univ) / Eiji Uchibe(ATR) / Satoshi Nishida(NICT)
幹事補佐氏名（和）	赤澤淳(明治国際医療大学) / 湯田恵美(東北大) / 我妻伸彦(東邦大) / 栗川知己(関西医科大)
幹事補佐氏名（英）	Jun Akazawa(Meiji Univ. of Integrative Medicine) / Emi Yuda(Tohoku Univ) / Nobuhiko Wagatsuma(Toho Univ.) / Tomoki Kurikawa(KMU)

講演論文情報詳細
申込み研究会	Technical Committee on ME and Bio Cybernetics / Technical Committee on Neurocomputing
本文の言語	JPN
タイトル（和）	FPGA実装に向けた強化学習モデルの丸め誤差と学習性能に関する考察
サブタイトル（和）
タイトル（英）	Study on rounding error and Learning performance of reinforcement learning model for FPGA implementation
サブタイトル（和）
キーワード(1)（和/英）	強化学習 / Reinforcement Learning
キーワード(2)（和/英）	FPGA / FPGA
キーワード(3)（和/英）	Q学習 / Q-learning
キーワード(4)（和/英）	エッジコンピューティング / Edge Computing
第 1 著者氏名（和/英）	小口大輔 / Daisuke Oguchi
第 1 著者所属（和/英）	東北大学(略称：東北大) Tohoku University(略称：Tohoku Univ)
第 2 著者氏名（和/英）	守谷哲 / Satoshi Moriya
第 2 著者所属（和/英）	東北大学(略称：東北大) Tohoku University(略称：Tohoku Univ)
第 3 著者氏名（和/英）	山本英明 / Hideaki Yamamoto
第 3 著者所属（和/英）	東北大学(略称：東北大) Tohoku University(略称：Tohoku Univ)
第 4 著者氏名（和/英）	佐藤茂雄 / Shigeo Sato
第 4 著者所属（和/英）	東北大学(略称：東北大) Tohoku University(略称：Tohoku Univ)
発表年月日	2021-10-28
資料番号	NC2021-24
巻番号（vol）	vol.121
号番号（no）	NC-223
ページ範囲	pp.34-39(NC),
ページ数	6
発行日	2021-10-21 (NC)