講演抄録/キーワード |
講演名 |
2017-10-13 09:15
深層学習における低精度演算を用いた高速化及びアクセラレーターの性能評価 ○長沼大樹・関谷 翠・大沢和樹・大友広幸・桑村裕二・横田理央(東工大) PRMU2017-81 |
抄録 |
(和) |
近年の畳み込みニューラルネットワーク(CNN)の傾向として,より多層な構造を持っており,
性能を向上させている一方で学習や推論にかかる計算量とデータ量が増加している.
モデルの学習には,多い場合には数週間かかることが報告されており,この問題を解決するために,
CNNのもつ雑音に対する耐性を利用して,演算やデータの数値精度を落とし,データ量・計算量を削減する手法が複数提案されている.
一方で,これらの手法では,CNNの各レイヤーごとの高速化傾向及びその原因について十分な議論がなされていない.
本研究では,学習済みネットワークモデルに対し,低精度演算を適用することで,
CNNモデルのデータ量を削減・データアクセスの高速化に加えて,
畳み込み層など計算律速である層に関しては,半精度浮動小数のSIMD命令を用いて高速化を図る手法を提案した.
提案手法を適用した場合の,CNNの認識精度への影響,レイヤーごとの高速化傾向及びその原因についての調査、
アクセラレータ(NVIDIA GTX1080TI, NVIDIA Pascal 100 SXM2)ごとの性能評価を行った. |
(英) |
While recent convolution neural networks (CNN)cite{ref:CNN} are improving performance, amout of computation and data volume are increasing.
In this research, by applying low precision to the learned model,
in addition to reduce data of CNN model, speeding up data access,
for a layer that is computation-bound, we propose a method to speed up by using a half precision floating point SIMD instruction.
We examined the influence of CNN recognition accuracy, the tendency of speeding up for each layer and its reason ,when we apply our method.
Furthermore, we conducted a performance evaluation for each accelerator (NVIDIAGTX1080TI, NVIDIA Pascal100 SXM2). |
キーワード |
(和) |
画像認識 / 畳み込みニューラルネットワーク / 低精度演算 / 半精度 / 量子化 / / / |
(英) |
image recognition / convolutional neural network / low-precision / half-precision / quantization / / / |
文献情報 |
信学技報, vol. 117, no. 238, PRMU2017-81, pp. 101-107, 2017年10月. |
資料番号 |
PRMU2017-81 |
発行日 |
2017-10-05 (PRMU) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
PRMU2017-81 |