稀疏獎勵場景下基于適應(yīng)性狀態(tài)近似的多智能體強(qiáng)化學(xué)習(xí)
機(jī)器人
頁數(shù): 10 2024-11-20
摘要: 稀疏獎勵是多智能體強(qiáng)化學(xué)習(xí)的主要挑戰(zhàn)之一,現(xiàn)有算法難以在稀疏獎勵場景下有效訓(xùn)練智能體團(tuán)隊(duì),并且容易導(dǎo)致其探索效率低下。為解決此類問題,本文提出基于適應(yīng)性狀態(tài)近似的多智能體強(qiáng)化學(xué)習(xí)算法。受人類在獎勵稀缺情況下學(xué)習(xí)的啟發(fā),通過考慮智能體狀態(tài)之間的相似性,自適應(yīng)地從經(jīng)驗(yàn)池中獲取近似狀態(tài),并將其添加到候選狀態(tài)集,利用候選狀態(tài)集中的探索信息促進(jìn)策略訓(xùn)練。此外,算法還將該近似狀態(tài)與當(dāng)前局部... (共10頁)