當前位置:首頁 > 科技文檔 > 自動化技術 > 正文

基于優(yōu)質樣本篩選的離線強化學習算法

模式識別與人工智能 頁數(shù): 11 2024-11-15
摘要: 針對離線強化學習算法過度依賴數(shù)據(jù)集樣本質量的問題,提出基于優(yōu)質樣本篩選的離線強化學習算法.首先,在策略評估階段,賦予優(yōu)勢值的樣本更高的更新權重,并添加策略熵項,快速識別高質量且在數(shù)據(jù)分布內(nèi)概率較高的動作樣本,從而篩選更有價值的動作樣本.在策略優(yōu)化階段,最大化歸一化優(yōu)勢函數(shù)的同時,保持對數(shù)據(jù)集上動作的策略約束,使算法在數(shù)據(jù)集樣本質量較低時也可高效利用優(yōu)質樣本,提升策略的學習效率和... (共11頁)

開通會員,享受整站包年服務立即開通 >