當前位置:首頁 > 科技文檔 > 自動化 > 正文

基于MLIR的FP8量化模擬與推理內存優(yōu)化

計算機科學 頁數(shù): 9 2024-02-20
摘要: 隨著目標檢測模型和語言大模型的迅速發(fā)展,網絡模型正變得越來越龐大。為了更好地在端側硬件上進行模型部署,通常采用模型量化技術對模型進行壓縮?,F(xiàn)有的模型量化策略主要基于FP16,BF16和INT8等類型實現(xiàn)。其中,8bit數(shù)據類型在降低推理內存占用與部署開銷方面最為顯著,但INT8類型依賴特定的校準算法,未能很好地處理動態(tài)范圍大、離群點多的模型。FP8類型能夠更好地擬合神經網絡中的...

開通會員,享受整站包年服務立即開通 >