講演名 2008/7/29
ソフトウェアECCによるGPUメモリの耐故障性の実現と評価(信頼性とセキュリティ,SWoPP佐賀2008-2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ)
丸山 直也, 松岡 聡, 尾形 康彦, 額田 彰, 遠藤 敏夫,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 高い浮動小数点演算性能により、GPUをHPC用途に用いるGPGPUが注目されている。しかし、GPUは本来グラフィックス用途に開発されてきたものであり、HPC用途としては耐故障性に不十分な点が存在する。その一つとして、メモリ誤りの検出、訂正が挙げられる。現状のGPUにはECCを備えたものなく、一般的なHPC計算ノードと比較して信頼性に劣る。我々は、GPUの信頼性向上のために、ソフトウェアによってメモリ誤りの検出、訂正を行う手法を提案する。本手法では、GPGPUアプリケーション中にECCを計算、検査するコードを追加することで、グラフィックスメモリ中のビットフリップなどの誤りを検出、訂正する。提案手法をNvidiaによるC言語拡張CUDA向けにライブラリとして実装し、行列積とN体問題アプリケーションに適用した。両アプリケーションを用いて、ECC計算による性能オーバーヘッドを調査したところ、行列積で最大300%程度,N体問題で15%程度のオーバーヘッドになることを確認し、N体問題のようにメモリアクセス頻度に対して計算量の多いアプリケーションでは比較的小さなオーバーヘッドで実現可能であることを確認した。
抄録(英) General-Purpose Processing on GPUs (GPGPUs) has rapidly been recoginized as a promissing HPC technology because of GPUs' much higher peak floating-point processing power. However, GPUs have originally been developed for graphics applications, such as 3D games, where reliability is not considered as an important issue as in HPC communities. One notable example is the lack of ECC in graphics memory systems. To improve the reliability of GPUs for HPC applications, we propose a software-based technique to generate and check ECC for graphics memory. Our library-based approache allows for CUDA-based GPGPU applications to be easily extended with ECC-based error checking with little manual intervention. To evaluate the applicability of our approach, we extended two CUDA applications with our ECC libarary: a matrix multiplication and an N-body problem. Our performance studies showed that while matrix multiplication can take up to 300% overhead, the N-body application only incurrs 15% of overhead. These results suggest that software-based ECC would be a promissing approach for computation-intensive applications such as N-body problems.
キーワード(和) GPGPU / 耐故障性 / ECC
キーワード(英) GPGPU / dependability / ECC
資料番号 DC2008-20
発行日

研究会情報
研究会 DC
開催期間 2008/7/29(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Dependable Computing (DC)
本文の言語 JPN
タイトル(和) ソフトウェアECCによるGPUメモリの耐故障性の実現と評価(信頼性とセキュリティ,SWoPP佐賀2008-2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ)
サブタイトル(和)
タイトル(英)
サブタイトル(和)
キーワード(1)(和/英) GPGPU / GPGPU
キーワード(2)(和/英) 耐故障性 / dependability
キーワード(3)(和/英) ECC / ECC
第 1 著者 氏名(和/英) 丸山 直也 / Naoya MARUYAMA
第 1 著者 所属(和/英) 東京工業大学:科学技術推進機構戦略的創造研究推進事業
Tokyo Institute of Technology:Japan Science and Technology Agency, CREST
第 2 著者 氏名(和/英) 松岡 聡 / Satoshi MATSUOKA
第 2 著者 所属(和/英) 東京工業大学:国立情報学研究所:科学技術推進機構戦略的創造研究推進事業
Tokyo Institute of Technology:National Institute of Informatics:Japan Science and Technology Agency, CREST
第 3 著者 氏名(和/英) 尾形 康彦 / Yasuhiko OGATA
第 3 著者 所属(和/英) 東京工業大学:科学技術推進機構戦略的創造研究推進事業
Tokyo Institute of Technology:Japan Science and Technology Agency, CREST
第 4 著者 氏名(和/英) 額田 彰 / Akira NUKADA
第 4 著者 所属(和/英) 東京工業大学:科学技術推進機構戦略的創造研究推進事業
Tokyo Institute of Technology:Japan Science and Technology Agency, CREST
第 5 著者 氏名(和/英) 遠藤 敏夫 / Toshio ENDO
第 5 著者 所属(和/英) 東京工業大学:科学技術推進機構戦略的創造研究推進事業
Tokyo Institute of Technology:Japan Science and Technology Agency, CREST
発表年月日 2008/7/29
資料番号 DC2008-20
巻番号(vol) vol.108
号番号(no) 181
ページ範囲 pp.-
ページ数 7
発行日