神威超級(jí)計(jì)算機(jī)運(yùn)行時(shí)故障定位方法
計(jì)算機(jī)研究與發(fā)展
頁數(shù): 12 2023-05-26
摘要: 隨著高性能計(jì)算機(jī)的性能不斷提升、系統(tǒng)規(guī)模不斷提高,系統(tǒng)和應(yīng)用的錯(cuò)誤率也不可避免地持續(xù)增多.快速發(fā)現(xiàn)和定位系統(tǒng)及應(yīng)用級(jí)的錯(cuò)誤、為用戶提供高質(zhì)量服務(wù),成為了超級(jí)計(jì)算機(jī)系統(tǒng)設(shè)計(jì)開發(fā)過程中急需考慮的問題.超級(jí)計(jì)算機(jī)系統(tǒng)中硬件故障與異常、軟件程序的錯(cuò)誤等都會(huì)導(dǎo)致用戶大規(guī)模并行應(yīng)用的錯(cuò)誤、掛死與退出.如何快速準(zhǔn)確定位錯(cuò)誤現(xiàn)場(chǎng),讓管理員或用戶以此為基礎(chǔ)查看異常發(fā)生的故障進(jìn)行高精度、高效率的診...