在線深度強(qiáng)化學(xué)習(xí)探索策略生成方法綜述
機(jī)器人
頁數(shù): 16 2024-11-06
摘要: 針對在線深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練過程中的探索-利用難題,在對其概要介紹基礎(chǔ)上,從探索策略與任務(wù)策略的關(guān)系角度入手,對單智能體在線深度強(qiáng)化學(xué)習(xí)算法中的探索策略生成方法進(jìn)行分類綜述。首先重點(diǎn)介紹了基于任務(wù)策略獎勵空間與參數(shù)空間的探索策略生成方法,對在獎勵空間中引入內(nèi)在激勵的探索方法進(jìn)行了分類介紹并結(jié)合優(yōu)缺點(diǎn)分析給出了相關(guān)研究進(jìn)展;結(jié)合任務(wù)性能和多樣性需求,對參數(shù)空間神經(jīng)進(jìn)化算法中的個體... (共16頁)