基于興趣函數(shù)的多樣化Option-Critic算法
計(jì)算機(jī)研究與發(fā)展
頁(yè)數(shù): 13 2024-02-20
摘要: Option框架作為分層強(qiáng)化學(xué)習(xí)的一種常用時(shí)序抽象方法,允許智能體在不同的時(shí)間尺度上學(xué)習(xí)策略,可以有效解決稀疏獎(jiǎng)勵(lì)問(wèn)題.為了保證Option可以引導(dǎo)智能體訪問(wèn)更多的狀態(tài)空間,一些方法通過(guò)引入基于互信息的內(nèi)部獎(jiǎng)勵(lì)和終止函數(shù)來(lái)提升Option內(nèi)部策略的多樣性.但這會(huì)導(dǎo)致算法學(xué)習(xí)速度慢和內(nèi)部策略的知識(shí)遷移能力低等問(wèn)題,嚴(yán)重影響了算法性能.針對(duì)以上問(wèn)題,提出基于興趣函數(shù)優(yōu)化的多樣化Op... (共13頁(yè))