お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2020-12-11 14:00
深層学習によるスーパーコンピュータ「富岳」のインターコネクト障害予測
三木淳司富士通R2020-30
抄録 (和) スーパーコンピュータは高性能化のため大規模な構成を持ち、ベンチマークを完走するためには単一部品換算で数十年の無障害稼働に相当するほどの高信頼性を求められる。よってシステム安定性確保が重要であり、障害発生時には保守によるシステム停止影響を最小化するため事前に保守部材を用意しておく必要がある。しかし障害部品や障害数を事前に予測することは困難であり、運用の安定確保のためには保守部材を実際に必要な数よりも過剰に用意しておく必要があった。最小限の保守部材を確保しつつ、部材数の削減を行うことは保守コスト削減に直結するため重要な課題である。そこで、障害箇所の特徴を統計解析し、正常稼働するシステムの中から障害発生確率の高い部品を事前に高精度で予測することが求められる。スーパーコンピュータはログ管理機能を豊富に備えており、一般製品よりも機械学習の面で有利である。本稿ではスーパーコンピュータ「富岳」のインターコネクトの部品データから深層学習による障害予測手法を提案する。またその評価結果より障害予測モデルが高精度であることを示す。 
(英) Supercomputers have large-scale structures to achieve high performance. To complete the benchmark, each unit in the system requires extremely high reliability which is equivalent to several decades of stability. For realizing high reliability, the maintenance impact has to be minimized by preparing replacement units in advance to avoid a long period of system-down. However, it was difficult to predict the number of failures conventionally. Therefore, excessive preparation of the replacement units was necessary to ensure enough safety margin, while a much fewer number of replacement units are used in fact. Optimizing the number of replacement units is an essential issue to reduce maintenance costs. Hence, failure prediction through a statistical analysis of features of system failures is necessary. Supercomputers that equip a lot of log management functions have advantages in the machine learning field compared with other systems. In this paper, a failure prediction technology constructed with deep learning is proposed to minimize the number of unnecessary replacement units. The
evaluation results show the high accuracy of the model.
キーワード (和) 深層学習 / 障害予測 / / / / / /  
(英) deep learning / failure prediction / / / / / /  
文献情報 信学技報, vol. 120, no. 286, R2020-30, pp. 1-6, 2020年12月.
資料番号 R2020-30 
発行日 2020-12-04 (R) 
ISSN Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード R2020-30

研究会情報
研究会 R  
開催期間 2020-12-11 - 2020-12-11 
開催地(和) オンライン開催 
開催地(英) Online 
テーマ(和) 信頼性国際規格,保全性,信頼性一般,安全性一般 
テーマ(英) Reliability International Standard, Maintainability, Reliability General 
講演論文情報の詳細
申込み研究会 R 
会議コード 2020-12-R 
本文の言語 日本語 
タイトル(和) 深層学習によるスーパーコンピュータ「富岳」のインターコネクト障害予測 
サブタイトル(和)  
タイトル(英) "Fugaku" Supercomputer Interconnect Failure Prediction Through Deep Learning 
サブタイトル(英)  
キーワード(1)(和/英) 深層学習 / deep learning  
キーワード(2)(和/英) 障害予測 / failure prediction  
キーワード(3)(和/英) /  
キーワード(4)(和/英) /  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 三木 淳司 / Atsushi Miki / ミキ アツシ
第1著者 所属(和/英) 富士通株式会社 (略称: 富士通)
Fujitsu Limited (略称: Fujitsu)
第2著者 氏名(和/英/ヨミ) / /
第2著者 所属(和/英) (略称: )
(略称: )
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2020-12-11 14:00:00 
発表時間 25分 
申込先研究会 R 
資料番号 R2020-30 
巻番号(vol) vol.120 
号番号(no) no.286 
ページ範囲 pp.1-6 
ページ数
発行日 2020-12-04 (R) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会