講演名 2012-08-03
通信オーバーラップを考慮したアプリケーションレベルチェックポイントフレームワーク(システムのディペンダビリティ,2012年並列/分散/協調処理に関する『鳥取』サマー・ワークショップ(SWoPP鳥取2012))
實本 英之,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 大規模HPC環境では、要素数の増加や、高密度低電力実装の影響により、システムの故障率は大きく増加しており、アプリケーションを実行するに当たり、故障対応が必須要件になっている。故障対応アルゴリズムのコストを極限まで削減するためには、アプリケーション毎に適したアルゴリズムを適用することが重要である。故障対応アルゴリズムの一つであるチェックポイント/リスタートもアプリケーションからのアドバイスを用いることにより、チェックポイントデータ量、並列プロセスの一貫性保証において最適化が可能になるが、アプリケーションの構造により決定する一貫性保証アルゴリズムによってチェックポイントの位置を決めてしまうと、本来実行環境といった外的要因から算出される最適なチェックポイント間隔を適用しづらくなってしまう。このため、一貫性保証アルゴリズムとチェックポイント間隔最適化アルゴリズムを併用可能な仕組みを提案した。また非同期通信を用いた通信オーバーラップがある場合、チェックポイント可能な候補位置を設定するのに制限を受ける。このため、非同期通信を中断するナイーブな手法について提案した。
抄録(英)
キーワード(和) 耐故障 / アプリケーションレベルチェックポイント / フォールトレジリエンス
キーワード(英)
資料番号 DC2012-17
発行日

研究会情報
研究会 DC
開催期間 2012/7/27(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Dependable Computing (DC)
本文の言語 JPN
タイトル(和) 通信オーバーラップを考慮したアプリケーションレベルチェックポイントフレームワーク(システムのディペンダビリティ,2012年並列/分散/協調処理に関する『鳥取』サマー・ワークショップ(SWoPP鳥取2012))
サブタイトル(和)
タイトル(英)
サブタイトル(和)
キーワード(1)(和/英) 耐故障
キーワード(2)(和/英) アプリケーションレベルチェックポイント
キーワード(3)(和/英) フォールトレジリエンス
第 1 著者 氏名(和/英) 實本 英之 / Hideyuki JITSUMOTO
第 1 著者 所属(和/英) 東京大学情報基盤センター
Information Technology Center, The University of Tokyo
発表年月日 2012-08-03
資料番号 DC2012-17
巻番号(vol) vol.112
号番号(no) 174
ページ範囲 pp.-
ページ数 5
発行日