基于深度強化學習的空天地一體化網(wǎng)絡信息物理系統(tǒng)垂直切換策略
通信學報
頁數(shù): 12 2024-08-25
摘要: 針對空天地一體化網(wǎng)絡信息物理系統(tǒng)模型復雜、很難獲得網(wǎng)絡拓撲先驗知識和模型化假設的特點,研究其基于深度強化學習的垂直切換策略。首先,綜合考慮系統(tǒng)穩(wěn)定性、切換開銷和網(wǎng)絡使用成本約束,將垂直切換策略問題建模為約束馬爾可夫決策過程(CMDP),并給出保證可行解存在的充分條件;其次,提出約束-近端策略優(yōu)化(CPPO)算法解決該問題,并在基站側(cè)引入分布式強化學習機制加速訓練收斂。相較于基準...