基于價值函數(shù)分解和通信學習機制的異構多智能體強化學習方法
計算機學報
頁數(shù): 19 2024-04-09
摘要: 許多現(xiàn)實世界的系統(tǒng)可以被建模為多智能體系統(tǒng),多智能體強化學習為開發(fā)這些系統(tǒng)提供了一種有效的方法,其中基于集中訓練與分散執(zhí)行范式的價值函數(shù)分解方法得到了廣泛的研究.然而現(xiàn)有的價值分解方法一般缺乏通信機制,在處理需要通信學習的多智能體任務時表現(xiàn)不佳.同時,目前大多數(shù)通信機制都是針對同構多智能體環(huán)境設計的,沒有考慮異構多智能體場景.在異構場景中,由于智能體動作空間或觀測空間的異構性,...