GNNSched:面向GPU的圖神經(jīng)網(wǎng)絡(luò)推理任務(wù)調(diào)度框架
計(jì)算機(jī)工程與科學(xué)
頁數(shù): 11 2024-01-15
摘要: 由于頻繁的顯存訪問,圖神經(jīng)網(wǎng)絡(luò)GNN在GPU上運(yùn)行時往往資源利用率較低。現(xiàn)有的推理框架由于沒有考慮GNN輸入的不規(guī)則性,直接適用到GNN進(jìn)行推理任務(wù)共置時可能會超出顯存容量導(dǎo)致任務(wù)失敗。對于GNN推理任務(wù),需要根據(jù)其輸入特點(diǎn)預(yù)先分析并發(fā)任務(wù)的顯存占用情況,以確保并發(fā)任務(wù)在GPU上的成功共置。此外,多租戶場景提交的推理任務(wù)亟需靈活的調(diào)度策略,以滿足并發(fā)推理任務(wù)的服務(wù)質(zhì)量要求。為了...