校級異地超算集群管理的關(guān)鍵技術(shù)研究與實踐
計算機工程與科學(xué)
頁數(shù): 11 2023-12-15
摘要: 隨著高性能計算的業(yè)務(wù)增長和規(guī)模擴大,機房空間、供電能力等外部因素常常會成為集群擴容升級的制約因素,由此產(chǎn)生了異地超算集群的建設(shè)需求。異地超算能突破單個集群的地理限制,提供更多算力資源。基于上海交通大學(xué)“交我算”計算平臺建設(shè)異地聯(lián)合超算集群的實踐,總結(jié)了基礎(chǔ)設(shè)施與系統(tǒng)軟件的統(tǒng)一管理方法,以及集群異地容災(zāi)的高可用設(shè)計,具體包括:適配Slurm作業(yè)調(diào)度系統(tǒng)、Open OnDemand...