講演名 2012-10-12
コンフリクトフリーなオフライン置換のGPU実装(GPU・マルチコア,クラウド、ネットワーク及び一般)
笠置 明彦, 中野 浩嗣, 伊藤 靖朗,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) ディスクリートメモリーマシン(DMM)はGPUの共有メモリの理論的特徴を表現する理論並列計算モデルである.共有メモリアクセスのバンド幅を最大化するためには,バンクコンフリクトを避ける必要がある.配列のオフライン置換は,与えられた置換によって配列aのすべての要素を配列bにコピーするタスクである.本論文では,GPUにおけるDMMのコンフリクトフリーな置換アルゴリズムの実装を提案する.また,GPUで単純な置換を実装し,それらの性能の比較をおこなった.NVIDIA GeForce GTX-680を用い,1024個のfloat型の数に対して実験した結果,単純な置換アルゴリズムでは,ランダムな置換に対して246ns,ビット反転の置換に対して877nsかかった.驚くべきことに,提案するコンフリクトフリーな置換アルゴリズムでは,メモリアクセス操作の回数が多くなるにもかかわらず,それぞれの置換に対して165nsで実行した.つまり,提案するコンフリクトフリーな置換アルゴリズムを用いることで,ランダムな置換に対して1.5倍,ビット反転の置換に対して5.3倍の高速化を実現した.
抄録(英) The Discrete Memory Machine (DMM) is a theoretical parallel computing model that captures the essence of the shared memory access of GPUs. We need to avoid the bank conflicts for maximizing the bandwidth of the shared memory access. Offline permutation of an array is a task to copy of all elements in a into b along a given permutation. The main goal of this paper is to implement a conflict-free permutation algorithm on the DMM in a GPU. We have also implemented straightforward permutation algorithms on the GPU. The experimental results for 1024 float numbers on NVIDIA GeForce GTX-680 show that a straightforward permutation algorithm takes 246ns and 877ns for random permutation and bit-reversal permutation, respectively. Quite surpassingly, our conflict-free permutation algorithm runs in 165ns for random permutation and bit-reversal permutation each although it performs more memory access operations. It follows that our conflict-free permutation is 1.5 times faster for random permutation and 5.3 times faster for bit-reversal permutation.
キーワード(和) メモリマシンモデル / データ転送 / バンクコンフリクト / 共有メモリ / GPU / CUDA
キーワード(英) memory machine models / data movement / bank conflict / shared memory / GPU / CUDA
資料番号 CPSY2012-35
発行日

研究会情報
研究会 CPSY
開催期間 2012/10/5(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Computer Systems (CPSY)
本文の言語 ENG
タイトル(和) コンフリクトフリーなオフライン置換のGPU実装(GPU・マルチコア,クラウド、ネットワーク及び一般)
サブタイトル(和)
タイトル(英) A GPU Implementation of Conflict-Free Offline Permutation
サブタイトル(和)
キーワード(1)(和/英) メモリマシンモデル / memory machine models
キーワード(2)(和/英) データ転送 / data movement
キーワード(3)(和/英) バンクコンフリクト / bank conflict
キーワード(4)(和/英) 共有メモリ / shared memory
キーワード(5)(和/英) GPU / GPU
キーワード(6)(和/英) CUDA / CUDA
第 1 著者 氏名(和/英) 笠置 明彦 / Akihiko KASAGI
第 1 著者 所属(和/英) 広島大学大学院工学研究科
Department of Information Engineering, Hiroshima University
第 2 著者 氏名(和/英) 中野 浩嗣 / Koji NAKANO
第 2 著者 所属(和/英) 広島大学大学院工学研究科
Department of Information Engineering, Hiroshima University
第 3 著者 氏名(和/英) 伊藤 靖朗 / Yasuaki ITO
第 3 著者 所属(和/英) 広島大学大学院工学研究科
Department of Information Engineering, Hiroshima University
発表年月日 2012-10-12
資料番号 CPSY2012-35
巻番号(vol) vol.112
号番号(no) 237
ページ範囲 pp.-
ページ数 6
発行日