講演名 | 2012-10-12 コンフリクトフリーなオフライン置換のGPU実装(GPU・マルチコア,クラウド、ネットワーク及び一般) 笠置 明彦, 中野 浩嗣, 伊藤 靖朗, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | ディスクリートメモリーマシン(DMM)はGPUの共有メモリの理論的特徴を表現する理論並列計算モデルである.共有メモリアクセスのバンド幅を最大化するためには,バンクコンフリクトを避ける必要がある.配列のオフライン置換は,与えられた置換によって配列aのすべての要素を配列bにコピーするタスクである.本論文では,GPUにおけるDMMのコンフリクトフリーな置換アルゴリズムの実装を提案する.また,GPUで単純な置換を実装し,それらの性能の比較をおこなった.NVIDIA GeForce GTX-680を用い,1024個のfloat型の数に対して実験した結果,単純な置換アルゴリズムでは,ランダムな置換に対して246ns,ビット反転の置換に対して877nsかかった.驚くべきことに,提案するコンフリクトフリーな置換アルゴリズムでは,メモリアクセス操作の回数が多くなるにもかかわらず,それぞれの置換に対して165nsで実行した.つまり,提案するコンフリクトフリーな置換アルゴリズムを用いることで,ランダムな置換に対して1.5倍,ビット反転の置換に対して5.3倍の高速化を実現した. |
抄録(英) | The Discrete Memory Machine (DMM) is a theoretical parallel computing model that captures the essence of the shared memory access of GPUs. We need to avoid the bank conflicts for maximizing the bandwidth of the shared memory access. Offline permutation of an array is a task to copy of all elements in a into b along a given permutation. The main goal of this paper is to implement a conflict-free permutation algorithm on the DMM in a GPU. We have also implemented straightforward permutation algorithms on the GPU. The experimental results for 1024 float numbers on NVIDIA GeForce GTX-680 show that a straightforward permutation algorithm takes 246ns and 877ns for random permutation and bit-reversal permutation, respectively. Quite surpassingly, our conflict-free permutation algorithm runs in 165ns for random permutation and bit-reversal permutation each although it performs more memory access operations. It follows that our conflict-free permutation is 1.5 times faster for random permutation and 5.3 times faster for bit-reversal permutation. |
キーワード(和) | メモリマシンモデル / データ転送 / バンクコンフリクト / 共有メモリ / GPU / CUDA |
キーワード(英) | memory machine models / data movement / bank conflict / shared memory / GPU / CUDA |
資料番号 | CPSY2012-35 |
発行日 |
研究会情報 | |
研究会 | CPSY |
---|---|
開催期間 | 2012/10/5(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Computer Systems (CPSY) |
---|---|
本文の言語 | ENG |
タイトル(和) | コンフリクトフリーなオフライン置換のGPU実装(GPU・マルチコア,クラウド、ネットワーク及び一般) |
サブタイトル(和) | |
タイトル(英) | A GPU Implementation of Conflict-Free Offline Permutation |
サブタイトル(和) | |
キーワード(1)(和/英) | メモリマシンモデル / memory machine models |
キーワード(2)(和/英) | データ転送 / data movement |
キーワード(3)(和/英) | バンクコンフリクト / bank conflict |
キーワード(4)(和/英) | 共有メモリ / shared memory |
キーワード(5)(和/英) | GPU / GPU |
キーワード(6)(和/英) | CUDA / CUDA |
第 1 著者 氏名(和/英) | 笠置 明彦 / Akihiko KASAGI |
第 1 著者 所属(和/英) | 広島大学大学院工学研究科 Department of Information Engineering, Hiroshima University |
第 2 著者 氏名(和/英) | 中野 浩嗣 / Koji NAKANO |
第 2 著者 所属(和/英) | 広島大学大学院工学研究科 Department of Information Engineering, Hiroshima University |
第 3 著者 氏名(和/英) | 伊藤 靖朗 / Yasuaki ITO |
第 3 著者 所属(和/英) | 広島大学大学院工学研究科 Department of Information Engineering, Hiroshima University |
発表年月日 | 2012-10-12 |
資料番号 | CPSY2012-35 |
巻番号(vol) | vol.112 |
号番号(no) | 237 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |