神威太湖之光可靠性及可用性設(shè)計(jì)與分析
計(jì)算機(jī)研究與發(fā)展
頁數(shù): 12 2021-05-27
摘要: 隨著系統(tǒng)規(guī)模與集成度的快速增加,可靠性與可用性問題成為構(gòu)建E級計(jì)算機(jī)系統(tǒng)所面臨的重大挑戰(zhàn).針對神威太湖之光超級計(jì)算機(jī)可靠性與可用性設(shè)計(jì)與實(shí)現(xiàn)開展全面的分析.首先概要描述神威太湖之光超級計(jì)算機(jī)系統(tǒng)結(jié)構(gòu).其次,系統(tǒng)提出神威太湖之光超級計(jì)算機(jī)可靠性增強(qiáng)技術(shù)以及故障預(yù)測、主動遷移、任務(wù)局部降級等主被動容錯技術(shù),建立神威太湖之光超級計(jì)算機(jī)多層次主被動協(xié)同的容錯系統(tǒng).再次,根據(jù)系統(tǒng)故障統(tǒng)計(jì)...