大模型引導(dǎo)的高效強(qiáng)化學(xué)習(xí)方法
圖學(xué)學(xué)報(bào)
頁(yè)數(shù): 13 2024-11-04
摘要: 深度強(qiáng)化學(xué)習(xí)作為支撐AlphaGo和ChatGPT等突破性工作的關(guān)鍵技術(shù),已成為前沿科學(xué)的研究熱點(diǎn)。在實(shí)際應(yīng)用上,深度強(qiáng)化學(xué)習(xí)作為一種重要的智能決策技術(shù),被廣泛應(yīng)用于視覺(jué)場(chǎng)景的避障、虛擬場(chǎng)景的優(yōu)化生成、機(jī)器臂控制、數(shù)字化設(shè)計(jì)與制造、工業(yè)設(shè)計(jì)決策等多種規(guī)劃決策任務(wù)。然而,深度強(qiáng)化學(xué)習(xí)在實(shí)際應(yīng)用中面臨樣本效率低下的挑戰(zhàn),嚴(yán)重限制了其應(yīng)用效果。為緩解這一問(wèn)題,針對(duì)現(xiàn)有強(qiáng)化學(xué)習(xí)探索機(jī)制... (共13頁(yè))