融合強(qiáng)化學(xué)習(xí)的三支治略選擇及其有效性分析
計(jì)算機(jī)科學(xué)與探索
頁數(shù): 9 2023-04-11
摘要: 三支決策的“分、治、效”(TAO)模型包括構(gòu)建三分、施加策略、結(jié)果評估三個部分。目前,關(guān)于結(jié)果評估的研究旨在衡量策略施加后結(jié)果的前后變化,還無法預(yù)測施加哪個策略能達(dá)到最大效果。為了解決這一問題,對TAO模型的“治”和“效”進(jìn)行了研究,提出一種基于強(qiáng)化學(xué)習(xí)的三支改變模型的策略選擇與有效性預(yù)測的方法。首先將改變?nèi)Q策TAO模型中的改變?nèi)譅顟B(tài)和策略分別作為強(qiáng)化學(xué)習(xí)中的狀態(tài)和動作,...