基于自適應(yīng)不確定性度量的離線強(qiáng)化學(xué)習(xí)算法
南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版)
頁數(shù): 7 2024-07-02
摘要: 離線強(qiáng)化學(xué)習(xí)可以從歷史經(jīng)驗(yàn)數(shù)據(jù)中直接學(xué)習(xí)出可執(zhí)行的策略,由此來避免與在線環(huán)境的高代價(jià)交互,可應(yīng)用于機(jī)器人控制、無人駕駛、智能營銷等多種真實(shí)場景。有模型的離線強(qiáng)化學(xué)習(xí)首先通過監(jiān)督學(xué)習(xí)構(gòu)造環(huán)境模型,并通過與該環(huán)境模型交互來優(yōu)化學(xué)習(xí)策略,具有樣本效率高的特點(diǎn),是最常用的離線強(qiáng)化學(xué)習(xí)算法。然而,由于離線數(shù)據(jù)集存在分布偏移問題,現(xiàn)有的方法往往通過靜態(tài)的方法來評(píng)估此種不確定性,無法動(dòng)態(tài)自適...