講演名 2005/7/29
空間的・時間的な故障率の変動を考慮したチェックポインティング手法の初期検討(高信頼システム, SWOPP武雄2005(2005年並列/分散/協調処理に関する「武雄」サマー・ワークショップ))
東 美和子, 近藤 正章, 今井 雅, 中村 宏, 南谷 崇,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 計算機クラスタはその高いコストパフォーマンスから近年広く利用されるようになっており, 高信頼化技術の必要性も高まっている.従来のチェックポインティング手法の研究では, 構成ノードの故障率は共通であり, また実行時間中に一定であると考えられてきた.しかし実際には, ノードごとの故障率の異なりや, 実行中に特に故障が発生しやすくなる時間帯が存在する.本研究では, これまで考慮されてこなかった故障率の変動に対応するために, チェックポインティング間隔に着目した手法を提案し, 性能に関する初期検討を行った.その結果, 提案手法を用いることで, 故障率の空間的偏り・時間的変動のそれぞれに対してオーバーヘッドを削減することに成功し, 提案手法の有効性を示した.
抄録(英) Cluster systems have been widely utilized especially in high performance computing because of its good cost performance. Fault tolerant techniques are needed for such cluster systems. Conventional checkpointing techniques assume common and constant failure-rate among nodes and during execution time. However, in practice, failure-rate is different among nodes and fluctuates during computation. We proposed a checkpointing method which is adaptive for such variations by focusing on the interval of checkpointing. In this paper, performance evaluation of our new checkpointing is presented. The result shows that our method reduces the overhead for both space and time variations of failure-rate.
キーワード(和) チェックポインティング / オーバーヘッド / クラスタシステム / 故障率変動
キーワード(英) Checkpointing / Overhead / Cluster system / variation of failure-rate
資料番号 DC2005-14
発行日

研究会情報
研究会 DC
開催期間 2005/7/29(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Dependable Computing (DC)
本文の言語 JPN
タイトル(和) 空間的・時間的な故障率の変動を考慮したチェックポインティング手法の初期検討(高信頼システム, SWOPP武雄2005(2005年並列/分散/協調処理に関する「武雄」サマー・ワークショップ))
サブタイトル(和)
タイトル(英) Initial Discussion about Adaptive Checkpointing for HPC cluster in view of fluctuate of Failure-Rate
サブタイトル(和)
キーワード(1)(和/英) チェックポインティング / Checkpointing
キーワード(2)(和/英) オーバーヘッド / Overhead
キーワード(3)(和/英) クラスタシステム / Cluster system
キーワード(4)(和/英) 故障率変動 / variation of failure-rate
第 1 著者 氏名(和/英) 東 美和子 / Miwako AZUMA
第 1 著者 所属(和/英) 東京大学先端科学技術研究センター
Research Center for Advanced Science and Technology, The University of Tokyo
第 2 著者 氏名(和/英) 近藤 正章 / Masaaki KONDO
第 2 著者 所属(和/英) 東京大学先端科学技術研究センター
Research Center for Advanced Science and Technology, The University of Tokyo
第 3 著者 氏名(和/英) 今井 雅 / Masahi IMAI
第 3 著者 所属(和/英) 東京大学先端科学技術研究センター
Research Center for Advanced Science and Technology, The University of Tokyo
第 4 著者 氏名(和/英) 中村 宏 / Hiroshi NAKAMURA
第 4 著者 所属(和/英) 東京大学先端科学技術研究センター
Research Center for Advanced Science and Technology, The University of Tokyo
第 5 著者 氏名(和/英) 南谷 崇 / Takashi NANYA
第 5 著者 所属(和/英) 東京大学先端科学技術研究センター
Research Center for Advanced Science and Technology, The University of Tokyo
発表年月日 2005/7/29
資料番号 DC2005-14
巻番号(vol) vol.105
号番号(no) 227
ページ範囲 pp.-
ページ数 6
発行日