當(dāng)前位置:首頁 > 實用文檔 > 計算機硬件技術(shù) > 正文

并行程序運行故障原因識別

國防科技大學(xué)學(xué)報 頁數(shù): 8 2022-09-30
摘要: 高性能計算系統(tǒng)的復(fù)雜性和規(guī)模的不斷增長使得系統(tǒng)的平均無故障時間越來越短,因此系統(tǒng)的硬軟件故障導(dǎo)致并行程序運行出錯的概率隨之增加。此外,并行程序本身可能存在的編程錯誤也會導(dǎo)致運行出錯。由于處理上述兩類故障原因的措施迥異,所以在程序運行出現(xiàn)故障時,用戶需要關(guān)注故障原因的類別。針對這一問題,設(shè)計和實現(xiàn)了一種基于作業(yè)管理系統(tǒng)Slurm的并行程序運行故障原因識別系統(tǒng)。通過對Slurm進行...

開通會員,享受整站包年服務(wù)立即開通 >