面向服務(wù)器無(wú)感計(jì)算的模型推理服務(wù)切換方法研究
計(jì)算機(jī)工程與科學(xué)
頁(yè)數(shù): 8 2024-07-15
摘要: 模型推理服務(wù)正隨著大模型技術(shù)的發(fā)展被廣泛應(yīng)用,為模型推理服務(wù)構(gòu)建穩(wěn)定可靠的體系結(jié)構(gòu)支撐逐漸成為云服務(wù)商關(guān)注的焦點(diǎn)。服務(wù)器無(wú)感計(jì)算是一種資源粒度細(xì)、抽象程度高的云服務(wù)計(jì)算范式,具有按需計(jì)費(fèi)、彈性擴(kuò)展等優(yōu)勢(shì),能夠有效提高模型推理服務(wù)的計(jì)算效率。但是,模型推理服務(wù)工作流呈現(xiàn)出多階段的特點(diǎn),獨(dú)立的服務(wù)器無(wú)感計(jì)算框架難以確保模型推理服務(wù)工作流各階段的最優(yōu)執(zhí)行。因此,如何利用不同服務(wù)器無(wú)感...