講演名 2005-10-17
有限なロールバック間隔に対するハイブリッド状態保存手法の最適チェックポイント間隔(データ工学, ディペンダビリティ, 一般)
大原 衛, 新井 雅之, 福本 聡, 岩崎 一彦,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では, 限られた計算資源を用いて動作する実際的なアプリケーションにおける, 非連携チェックポインティングの総期待オーバヘッドについて議論する.具体的には, 各プロセスが保持できるチェックポイント数に制限があり, ロールバック間隔に上限がある場合の, ハイブリッド状態保存手法の総期待オーバヘッドを評価する離散時間確率モデルを構築し, これを最小化する最適チェックポイント間隔を導出する.本稿の評価モデルは, ロールバック間隔を確率変数とし, その分布に片側の切れた幾何分布を仮定する.最適チェックポイント間隔を陽に導出するのは難しいが, より単純な確率分布を用いて, 最適チェックポイント間隔が近似的に与えられる.シミュレーションによる数値例から, この近似が良好であることや, 本稿の評価モデルが従来の確率モデルに比べてより適切なチェックポイント間隔を与えることが示される.
抄録(英) This paper discusses distributed periodic checkpointing for practical applications running with limited resources. We present a discrete time model evaluating the total expected overhead imposed on every event execution where the number of available checkpoints that each process can hold is finite and the rollback distance is bound to some finite interval. The recovery overhead for the checkpointing scheme is described by using a truncated geometric distribution as the rollback distance distribution. Although it is difficult to analytically derive the optimal checkpoint interval, which minimizes the total expected overhead, substituting other simple probabilistic distributions instead of the truncated geometric distribution enables us to do this explicitly. Numerical examples obtained through simulations are presented to show that we can achieve almost the minimized total overhead by using the new models and analyses.
キーワード(和) 信頼性 / 分散システム / 非連携チェックポインティング / 確率モデル / 台形分布
キーワード(英) reliability / distributed systems / uncoordinated checkpointing / probability models / trapezoidal distribution
資料番号 DE2005-127,DC2005-21
発行日

研究会情報
研究会 DC
開催期間 2005/10/10(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Dependable Computing (DC)
本文の言語 JPN
タイトル(和) 有限なロールバック間隔に対するハイブリッド状態保存手法の最適チェックポイント間隔(データ工学, ディペンダビリティ, 一般)
サブタイトル(和)
タイトル(英) Optimal Checkpoint Interval for Hybrid State Saving with Bound Rollbacks
サブタイトル(和)
キーワード(1)(和/英) 信頼性 / reliability
キーワード(2)(和/英) 分散システム / distributed systems
キーワード(3)(和/英) 非連携チェックポインティング / uncoordinated checkpointing
キーワード(4)(和/英) 確率モデル / probability models
キーワード(5)(和/英) 台形分布 / trapezoidal distribution
第 1 著者 氏名(和/英) 大原 衛 / Mamoru OHARA
第 1 著者 所属(和/英) 東京都立大学大学院工学研究科
Graduate School of Engineering, Tokyo Metropolitan University
第 2 著者 氏名(和/英) 新井 雅之 / Masayuki ARAI
第 2 著者 所属(和/英) 首都大学東京大学院工学研究科
Graduate School of Engineering, Tokyo Metropolitan University
第 3 著者 氏名(和/英) 福本 聡 / Satoshi FUKUMOTO
第 3 著者 所属(和/英) 首都大学東京大学院工学研究科
Graduate School of Engineering, Tokyo Metropolitan University
第 4 著者 氏名(和/英) 岩崎 一彦 / Kazuhiko IWASAKI
第 4 著者 所属(和/英) 首都大学東京大学院工学研究科
Graduate School of Engineering, Tokyo Metropolitan University
発表年月日 2005-10-17
資料番号 DE2005-127,DC2005-21
巻番号(vol) vol.105
号番号(no) 339
ページ範囲 pp.-
ページ数 6
発行日