講演抄録/キーワード |
講演名 |
2018-12-05 10:20
Intel OpenCLを用いた3状態YOLOv2のFPGA実装について ○佐田悠生・下田将之・佐藤真平・中原啓貴(東工大) RECONF2018-35 |
抄録 |
(和) |
畳み込みニューラルネットワークは高い認識精度を持ち,様々な画像認識アプリケーションを組み込み機器へ応用することが期待されている.
推論デバイスとしてFPGAは,書き換え可能な専用回路を用いて低消費電力かつ低レイテンシで計算が可能である.
本稿では,物体検出を行うYOLO~(You Only Look Once)の重みを低ビットかつ疎である3状態重みへ軽量化する手法を用いる.
CNNの1層目では,3値CNNとして重み${-1,0,+1}$を設定し,後半では3状態${-w,0,+w}$な重みを設定する.
間接メモリアクセスアーキテクチャを適用して零重みをスキップし,カーネル並列2次元畳み込みを行うアーキテクチャを用いる.
間接メモリアクセスを導入することで,異なるサイズのカーネルを持つAlexNet等のCNNにも同じアーキテクチャを適用できる.
レイヤ数を削減し低レイテンシ計算を行うため,AlexNetベースのYOLOv2を設計した.
車と人の物体検出を用いた実験により,提案する3状態CNNは元のCNNと比較して,重みのパラメータ数を90%削減できた.
Intel社のFPGA SDK for OpenCLを用いてIntel Arria10を搭載したDE5aNet DDR4ボードに実装し,
429.0FPS(Frames Per Second)を達成した.
Intel Corei7 7700と比較して203.3倍高速であり,電力効率は190.0倍優れていた.
GeForce GTX 1070 GPUと比較して1.74倍高速であり,電力性能効率は2.63倍優れていた. |
(英) |
Since the convolutional neural network has a high-performance recognition accuracy,
it is expected to implement various applications on an embedded vision system.
An FPGA can calculate the inference algorithm with low-latency and low power consumption using a specific circuit.
In the paper, we propose a tri-state weight, which is a generalization of a low-precision and sparse~(pruning) for CNN weight, to reduce the operation cost and parameters of YOLO.
In the first layer, we set a weight ${-1,0,+1}$ as a ternary CNN, while in the other layers, we set a ${-w,0,+w}$ as a sparse weight CNN.
We apply an indirect memory access architecture to skip zero part and propose the weight parallel 2D convolutional circuit.
It can be applied to the AlexNet based CNN, which has different size kernels.
Thus, we design the AlexNet based YOLOv2 to reduce the number of layers toward low-latency computation.
In the experiment, the proposed tri-state scheme CNN reduces the 90% of weight parameter.
We implement the proposed tri-state weight YOLOv2 on a DE5aNet DDR4 board, which has the Intel Corp. Arria10 GX, by using Intel FPGA SDK for OpenCL.
It archived 429.0 frames per second (FPS) on a car and person recognition.
Compared with the Intel Corei7 7700, it was 203.3 times faster, and its performance per power efficiency was 190.0 times better.
Also, compared with the GeForce GTX 1070 GPU, it was 1.74 times faster, and its power performance efficiency was 2.63 times better. |
キーワード |
(和) |
Intel OpenCL / 物体検出 / 3状態YOLOv2 / 畳み込みニューラルネットワーク / 3値化 / 枝刈り / FPGA / |
(英) |
Intel OpenCL / Object Detection / Tristate YOLOv2 / Convolutional Neural Network / Ternary / Pruning / FPGA / |
文献情報 |
信学技報, vol. 118, no. 340, RECONF2018-35, pp. 7-12, 2018年12月. |
資料番号 |
RECONF2018-35 |
発行日 |
2018-11-28 (RECONF) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
RECONF2018-35 |
|