AlphaGo原來是這樣運(yùn)行的，一文詳解多智能體強(qiáng)化學(xué)習(xí)的基礎(chǔ)和應(yīng)用（上）

發(fā)布人：機(jī)器之心時(shí)間：2020-11-04 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

在這篇綜述性文章中，作者詳盡地介紹了多智能強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)，并闡述了解決各類多智能問題的經(jīng)典算法。此外，作者還以 AlphaGo、AlphaStar 為例，概述了多智能體強(qiáng)化學(xué)習(xí)的實(shí)際應(yīng)用。

近年來，隨著強(qiáng)化學(xué)習(xí)（reinforcement learning）在多個(gè)應(yīng)用領(lǐng)域取得了令人矚目的成果，并且考慮到在現(xiàn)實(shí)場(chǎng)景中通常會(huì)同時(shí)存在多個(gè)決策個(gè)體（智能體），部分研究者逐漸將眼光從單智能體領(lǐng)域延伸到多智能體。

本文將首先簡(jiǎn)要地介紹多智能體強(qiáng)化學(xué)習(xí)（multi-agent reinforcement learning, MARL）的相關(guān)理論基礎(chǔ)，包括問題的定義、問題的建模，以及涉及到的核心思想和概念等。然后，根據(jù)具體應(yīng)用中智能體之間的關(guān)系，將多智能體問題分為完全合作式、完全競(jìng)爭(zhēng)式、混合關(guān)系式三種類型，并簡(jiǎn)要闡述解決各類多智能體問題的經(jīng)典算法。最后，本文列舉深度強(qiáng)化學(xué)習(xí)在多智能體研究工作中提出的一些方法（multi-agent deep reinforcement learning）。

1. 強(qiáng)化學(xué)習(xí)和多智能體強(qiáng)化學(xué)習(xí)

我們知道，強(qiáng)化學(xué)習(xí)的核心思想是“試錯(cuò)”（trial-and-error）：智能體通過與環(huán)境的交互，根據(jù)獲得的反饋信息迭代地優(yōu)化。在 RL 領(lǐng)域，待解決的問題通常被描述為馬爾科夫決策過程。

圖 1：強(qiáng)化學(xué)習(xí)的框架（同時(shí)也表示了馬爾科夫決策過程）。圖源：[1]

當(dāng)同時(shí)存在多個(gè)智能體與環(huán)境交互時(shí)，整個(gè)系統(tǒng)就變成一個(gè)多智能體系統(tǒng)（multi-agent system）。每個(gè)智能體仍然是遵循著強(qiáng)化學(xué)習(xí)的目標(biāo)，也就是是最大化能夠獲得的累積回報(bào)，而此時(shí)環(huán)境全局狀態(tài)的改變就和所有智能體的聯(lián)合動(dòng)作（joint action）相關(guān)了。因此在智能體策略學(xué)習(xí)的過程中，需要考慮聯(lián)合動(dòng)作的影響。

1.1 多智能體問題的建?！┺恼摶A(chǔ)

馬爾科夫決策過程拓展到多智能體系統(tǒng)，被定義為馬爾科夫博弈（又稱為隨機(jī)博弈，Markov/stochastic game）。當(dāng)我們對(duì)博弈論有一定了解后，能夠借助博弈論來對(duì)多智能體強(qiáng)化學(xué)習(xí)問題進(jìn)行建模，并更清晰地找到求解問題的方法。

圖 2：馬爾科夫博弈過程。圖源：[2]

在馬爾科夫博弈中，所有智能體根據(jù)當(dāng)前的環(huán)境狀態(tài)（或者是觀測(cè)值）來同時(shí)選擇并執(zhí)行各自的動(dòng)作，該各自動(dòng)作帶來的聯(lián)合動(dòng)作影響了環(huán)境狀態(tài)的轉(zhuǎn)移和更新，并決定了智能體獲得的獎(jiǎng)勵(lì)反饋。它可以通過元組 < S,A1,...,An,T,R1,...,Rn > 來表示，其中 S 表示狀態(tài)集合，Ai 和 Ri 分別表示智能體 i 的動(dòng)作集合和獎(jiǎng)勵(lì)集合，T 表示環(huán)境狀態(tài)轉(zhuǎn)移概率，表示損失因子。此時(shí)，某個(gè)智能體 i 獲得的累積獎(jiǎng)勵(lì)的期望可以表示為：

對(duì)于馬爾科夫博弈，納什均衡（Nash equilibrium）是一個(gè)很重要的概念，它是在多個(gè)智能體中達(dá)成的一個(gè)不動(dòng)點(diǎn)，對(duì)于其中任意一個(gè)智能體來說，無法通過采取其他的策略來獲得更高的累積回報(bào)，在數(shù)學(xué)形式上可以表達(dá)為：

在該式中，π^{i,}表示智能體 i 的納什均衡策略。

值得注意的是，納什均衡不一定是全局最優(yōu)，但它是在概率上最容易產(chǎn)生的結(jié)果，是在學(xué)習(xí)時(shí)較容易收斂到的狀態(tài)，特別是如果當(dāng)前智能體無法知道其他智能體將會(huì)采取怎樣的策略。這里舉個(gè)簡(jiǎn)單的例子來幫助理解，即博弈論中經(jīng)典的囚徒困境。根據(jù)兩個(gè)人不同的交代情況，判刑的時(shí)間是不一樣的：

在這個(gè)表格中，當(dāng) A 和 B 都選擇撒謊時(shí)，能夠達(dá)到全局最優(yōu)的回報(bào)。但是每個(gè)個(gè)體都不知道另外的個(gè)體會(huì)做出怎樣的行為，對(duì)于 A 或者是來 B 說，如果改成選擇坦白，則能夠獲得更優(yōu)的回報(bào)。實(shí)際上，對(duì)于 A 或者 B 來說，此時(shí)不管另外的個(gè)體選擇了哪種行為，坦白是它能夠獲得最優(yōu)回報(bào)的選擇。所以，最終會(huì)收斂到 A 和 B 都選擇坦白，即囚徒困境中的納什均衡策略。

均衡求解方法是多智能體強(qiáng)化學(xué)習(xí)的基本方法，它對(duì)于多智能體學(xué)習(xí)的問題，結(jié)合了強(qiáng)化學(xué)習(xí)的經(jīng)典方法（如 Q-learning）和博弈論中的均衡概念，通過 RL 的方法來求解該均衡目標(biāo)，從而完成多智能體的相關(guān)任務(wù)。這種思路在后面介紹具體的學(xué)習(xí)方法中會(huì)有所體現(xiàn)。

相比于單智能體系統(tǒng)，強(qiáng)化學(xué)習(xí)應(yīng)用在多智能體系統(tǒng)中會(huì)遇到哪些問題和挑戰(zhàn)？

1、環(huán)境的不穩(wěn)定性：智能體在做決策的同時(shí)，其他智能體也在采取動(dòng)作；環(huán)境狀態(tài)的變化與所有智能體的聯(lián)合動(dòng)作相關(guān)；

2、智能體獲取信息的局限性：不一定能夠獲得全局的信息，智能體僅能獲取局部的觀測(cè)信息，但無法得知其他智能體的觀測(cè)信息、動(dòng)作和獎(jiǎng)勵(lì)等信息；

3、個(gè)體的目標(biāo)一致性：各智能體的目標(biāo)可能是最優(yōu)的全局回報(bào)；也可能是各自局部回報(bào)的最優(yōu)；

4、可拓展性：在大規(guī)模的多智能體系統(tǒng)中，就會(huì)涉及到高維度的狀態(tài)空間和動(dòng)作空間，對(duì)于模型表達(dá)能力和真實(shí)場(chǎng)景中的硬件算力有一定的要求。

1.2 多智能體問題的求解——多智能體強(qiáng)化學(xué)習(xí)算法介紹

對(duì)于多智能體強(qiáng)化學(xué)習(xí)問題，一種直接的解決思路：將單智能體強(qiáng)化學(xué)習(xí)方法直接套用在多智能體系統(tǒng)中，即每個(gè)智能體把其他智能體都當(dāng)做環(huán)境中的因素，仍然按照單智能體學(xué)習(xí)的方式、通過與環(huán)境的交互來更新策略；這是 independent Q-learning 方法的思想。這種學(xué)習(xí)方式固然簡(jiǎn)單也很容易實(shí)現(xiàn)，但忽略了其他智能體也具備決策的能力、所有個(gè)體的動(dòng)作共同影響環(huán)境的狀態(tài)，使得它很難穩(wěn)定地學(xué)習(xí)并達(dá)到良好的效果。

在一般情況下，智能體之間可能存在的是競(jìng)爭(zhēng)關(guān)系（非合作關(guān)系）、半競(jìng)爭(zhēng)半合作關(guān)系（混合式）或者是完全合作關(guān)系，在這些關(guān)系模式下，個(gè)體需要考慮其他智能體決策行為的影響也是不一樣的。參考綜述[3]，接下來的部分將根據(jù)智能體之間的關(guān)系，按照完全競(jìng)爭(zhēng)式、半競(jìng)爭(zhēng)半合作、完全合作式來闡述多智能體問題的建模以及求解方法。

1.2.1 智能體之間是完全競(jìng)爭(zhēng)關(guān)系

minimax Q-learning 算法用于兩個(gè)智能體之間是完全競(jìng)爭(zhēng)關(guān)系的零和隨機(jī)博弈。首先是最優(yōu)值函數(shù)的定義：對(duì)于智能體 i，它需要考慮在其他智能體（i-）采取的動(dòng)作（a-）令自己（i）回報(bào)最差（min）的情況下，能夠獲得的最大（max）期望回報(bào)。該回報(bào)可以表示為：

在式子中，V 和 Q 省略了智能體 i 的下標(biāo)，是因?yàn)樵诹愫筒┺闹性O(shè)定了 Q1=-Q2，所以上式對(duì)于另一個(gè)智能體來說是對(duì)稱等價(jià)的。這個(gè)值函數(shù)表明，當(dāng)前智能體在考慮了對(duì)手策略的情況下使用貪心選擇。這種方式使得智能體容易收斂到納什均衡策略。在學(xué)習(xí)過程中，基于強(qiáng)化學(xué)習(xí)中的 Q-learning 方法，minimax Q-learning 利用上述 minimax 思想定義的值函數(shù)、通過迭代更新 Q 值；動(dòng)作的選擇，則是通過線性規(guī)劃來求解當(dāng)前階段狀態(tài) s 對(duì)應(yīng)的納什均衡策略。

圖 3：minimax-Q learning 算法流程。圖源[4]

minimax Q 方法是競(jìng)爭(zhēng)式博弈中很經(jīng)典的一種思想，基于該種思想衍生出很多其他方法，包括 Friend-or-Foe Q-learning、correlated Q-learning，以及接下來將要提到的 Nash Q-learning。

1.2.2 智能體之間是半合作半競(jìng)爭(zhēng)（混合）關(guān)系

雙人零和博弈的更一般形式為多人一般和博弈（general-sum game），此時(shí) minimax Q-learning 方法可擴(kuò)展為 Nash Q-learning 方法。當(dāng)每個(gè)智能體采用普通的 Q 學(xué)習(xí)方法，并且都采取貪心的方式、即最大化各自的 Q 值時(shí)，這樣的方法容易收斂到納什均衡策略。Nash Q-learning 方法可用于處理以納什均衡為解的多智能體學(xué)習(xí)問題。它的目標(biāo)是通過尋找每一個(gè)狀態(tài)的納什均衡點(diǎn)，從而在學(xué)習(xí)過程中基于納什均衡策略來更新 Q 值。

具體地，對(duì)于一個(gè)智能體 i 來說，它的 Nash Q 值定義為：

此時(shí)，假設(shè)了所有智能體從下一時(shí)刻開始都采取納什均衡策略，納什策略可以通過二次規(guī)劃（僅考慮離散的動(dòng)作空間，π是各動(dòng)作的概率分布）來求解。

在 Q 值的迭代更新過程中，使用 Nash Q 值來更新：

可以看到，對(duì)于單個(gè)智能體 i，在使用 Nash Q 值進(jìn)行更新時(shí)，它除了需要知道全局狀態(tài) s 和其他智能體的動(dòng)作 a 以外，還需要知道其他所有智能體在下一狀態(tài)對(duì)應(yīng)的納什均衡策略π。進(jìn)一步地，當(dāng)前智能體就需要知道其他智能體的 Q(s')值，這通常是根據(jù)觀察到的其他智能體的獎(jiǎng)勵(lì)和動(dòng)作來猜想和計(jì)算。所以，Nash Q-learning 方法對(duì)智能體能夠獲取的其他智能體的信息（包括動(dòng)作、獎(jiǎng)勵(lì)等）具有較強(qiáng)的假設(shè)，在復(fù)雜的真實(shí)問題中一般不滿足這樣嚴(yán)格的條件，方法的適用范圍受限。

圖 4：nash-Q learning 算法流程。圖源：[5]

1.2.3 智能體之間是完全合作關(guān)系

前面提到的智能體之間的兩種關(guān)系，都涉及到了個(gè)體和個(gè)體的相互競(jìng)爭(zhēng)，所以對(duì)于個(gè)體來說，在策略學(xué)習(xí)過程中考慮對(duì)方（更一般地，其他智能體）的決策行為，才能夠做出更好地應(yīng)對(duì)動(dòng)作，這是比較容易理解的。那么，如果智能體之間完全是合作關(guān)系，個(gè)體的決策也要考慮其他智能體的決策情況嗎？實(shí)際上，“合作”意味著多個(gè)智能體要共同完成一個(gè)目標(biāo)任務(wù)，即這個(gè)目標(biāo)的達(dá)成與各個(gè)體行為組合得到的聯(lián)合行為相關(guān)；如果個(gè)體“一意孤行”，那么它很難配合其他隊(duì)友來共同獲得好的回報(bào)。所以，智能體的策略學(xué)習(xí)仍然需要考慮聯(lián)合動(dòng)作效應(yīng)，要考慮其他具有決策能力的智能體的影響。

怎樣實(shí)現(xiàn)在智能體策略學(xué)習(xí)過程中考慮其他協(xié)作智能體的影響呢？這個(gè)問題我們可以分類討論，分類的依據(jù)是具體問題對(duì)于智能體協(xié)作的條件要求，即智能體通過協(xié)作獲得最優(yōu)回報(bào)時(shí)，是否需要協(xié)調(diào)機(jī)制:

1、不需要協(xié)作機(jī)制

對(duì)于一個(gè)問題（或者是任務(wù)），當(dāng)所有智能體的聯(lián)合最優(yōu)動(dòng)作是唯一的時(shí)候，完成該任務(wù)是不需要協(xié)作機(jī)制的。這個(gè)很容易理解，假設(shè)對(duì)于環(huán)境中的所有智能體 {A,B} 存在不只一個(gè)最優(yōu)聯(lián)合動(dòng)作，即有 {πA,πB} 和{hA,hB}，那么 A 和 B 之間就需要協(xié)商機(jī)制，決定是同時(shí)取π，還是同時(shí)取 h；因?yàn)槿绻渲幸粋€(gè)取π、另一個(gè)取 h，得到的聯(lián)合動(dòng)作就不一定是最優(yōu)的了。Team Q-learning 是一種適用于不需要協(xié)作機(jī)制的問題的學(xué)習(xí)方法，它提出對(duì)于單個(gè)智能體 i，可以通過下面這個(gè)式子來求出它的最優(yōu)動(dòng)作 hi：

Distributed Q-learning 也是一種適用于不需要協(xié)作機(jī)制的問題的學(xué)習(xí)方法，不同于 Team Q-learning 在選取個(gè)體最優(yōu)動(dòng)作的時(shí)候需要知道其他智能體的動(dòng)作，在該方法中智能體維護(hù)的是只依據(jù)自身動(dòng)作所對(duì)應(yīng)的 Q 值，從而得到個(gè)體最優(yōu)動(dòng)作。

隱式的協(xié)作機(jī)制

在智能體之間需要相互協(xié)商、從而達(dá)成最優(yōu)的聯(lián)合動(dòng)作的問題中，個(gè)體之間的相互建模，能夠?yàn)橹悄荏w的決策提供潛在的協(xié)調(diào)機(jī)制。在聯(lián)合動(dòng)作學(xué)習(xí)（joint action learner，JAL）[6]方法中，智能體 i 會(huì)基于觀察到的其他智能體 j 的歷史動(dòng)作、對(duì)其他智能體 j 的策略進(jìn)行建模。在頻率最大 Q 值（frequency maximum Q-value, FMQ）[7]方法中，在個(gè)體 Q 值的定義中引入了個(gè)體動(dòng)作所在的聯(lián)合動(dòng)作取得最優(yōu)回報(bào)的頻率，從而在學(xué)習(xí)過程中引導(dǎo)智能體選擇能夠取得最優(yōu)回報(bào)的聯(lián)合動(dòng)作中的自身動(dòng)作，那么所有智能體的最優(yōu)動(dòng)作組合被選擇的概率也會(huì)更高。

JAL 和 FMQ 方法的基本思路都是基于均衡求解法，但這類方法通常只能處理小規(guī)模（即智能體的數(shù)量較少）的多智能體問題：在現(xiàn)實(shí)問題中，會(huì)涉及到大量智能體之間的交互和相互影響，而一般的均衡求解法受限于計(jì)算效率和計(jì)算復(fù)雜度、很難處理復(fù)雜的情況。在大規(guī)模多智能體學(xué)習(xí)問題中，考慮群體聯(lián)合動(dòng)作的效應(yīng)，包括當(dāng)前智能體受到的影響以及在群體中發(fā)揮的作用，對(duì)于智能體的策略學(xué)習(xí)是有較大幫助的。

基于平均場(chǎng)理論的多智能體強(qiáng)化學(xué)習(xí)（Mean Field MARL, MFMARL）方法是 UCL 學(xué)者在 2018 年 ICML 會(huì)議上提出的一種針對(duì)大規(guī)模群體問題的方法，它將傳統(tǒng)強(qiáng)化學(xué)習(xí)方法（Q-learning）和平均場(chǎng)理論（mean field theory）相結(jié)合。平均場(chǎng)理論適用于對(duì)復(fù)雜的大規(guī)模系統(tǒng)建模，它使用了一種簡(jiǎn)化的建模思想：對(duì)于其中的某個(gè)個(gè)體，所有其他個(gè)體產(chǎn)生的聯(lián)合作用可以用一個(gè) “平均量” 來定義和衡量。此時(shí)，對(duì)于其中一個(gè)個(gè)體來說，所有其他個(gè)體的影響相當(dāng)于一個(gè)單體對(duì)于它的影響，這樣的建模方式能夠有效處理維度空間和計(jì)算量龐大的問題。

MFMARL 方法基于平均場(chǎng)理論的建模思想，將所有智能體看作一個(gè)“平均場(chǎng)”，個(gè)體與其他智能體之間的關(guān)系可以描述為個(gè)體和平均場(chǎng)之間的相互影響，從而簡(jiǎn)化了后續(xù)的分析過程。

圖 5：基于平均場(chǎng)理論的多智能體建模方式，單個(gè)智能體只考慮與相鄰的其他智能體（藍(lán)色球體區(qū)域）的相互作用。圖源：[8]

首先，為了處理集中式全局值函數(shù)的學(xué)習(xí)效果會(huì)受到智能體數(shù)量（聯(lián)合動(dòng)作的維度）的影響，對(duì)值函數(shù)進(jìn)行分解。對(duì)于單個(gè)智能體 j，它的值函數(shù) Qj(s,a)包含了與所有 Nj 個(gè)相鄰智能體 k 之間的相互作用：

然后，將平均場(chǎng)理論的思想結(jié)合到上式中?？紤]離散的動(dòng)作空間，單個(gè)智能體的動(dòng)作采用 one-hot 編碼的方式，即 aj=[h(aj_1), ... h(aj_d)]，其中 h(aj_i)=1 if aj=aj_i ?: 0；其他相鄰智能體的動(dòng)作可以表示為平均動(dòng)作 \ bar{aj}和一個(gè)波動(dòng)δ的形式：

利用泰勒二階展開，得到

該式子即是將當(dāng)前智能體 j 與其他相鄰智能體 k 的相互作用，簡(jiǎn)化為當(dāng)前智能體 j 和虛擬智能體 \ bar{j}的相互作用，是平均場(chǎng)思想在數(shù)學(xué)形式上的體現(xiàn)。此時(shí)，在學(xué)習(xí)過程中，迭代更新的對(duì)象為平均場(chǎng)下的 Q(s,aj,\bar{aj})值（即 MF-Q），有：

在更新中使用 v 而不是使用 max Q 的原因在于：對(duì) Q 取 max，需要相鄰智能體策略 \ bar{aj}的合作，而對(duì)于智能體 j 來說是無法直接干涉其他智能體的決策情況；另一方面，貪心的選擇依舊會(huì)導(dǎo)致學(xué)習(xí)過程受到環(huán)境不穩(wěn)定性的影響。

對(duì)應(yīng)地，智能體 j 的策略也會(huì)基于 Q 值迭代更新，使用玻爾茲曼分布有：

原文證明了通過這樣的迭代更新方式，\bar{aj}最終能夠收斂到唯一平衡點(diǎn)的證明，并推出智能體 j 的策略πj 能夠收斂到納什均衡策略。

2、顯式的協(xié)作機(jī)制

關(guān)于顯式的協(xié)作機(jī)制，我們將通過多智能體深度強(qiáng)化學(xué)習(xí)在多機(jī)器人領(lǐng)域的應(yīng)用中會(huì)簡(jiǎn)單介紹（主要是人機(jī)之間的交互，考慮現(xiàn)存的一些約束條件 / 先驗(yàn)規(guī)則等）。

2. 多智能體深度強(qiáng)化學(xué)習(xí)

隨著深度學(xué)習(xí)的發(fā)展，利用神經(jīng)網(wǎng)絡(luò)的強(qiáng)大表達(dá)能力來搭建逼近模型（value approximation）和策略模型（常見于 policy-based 的 DRL 方法）。深度強(qiáng)化學(xué)習(xí)的方法可以分為基于值函數(shù)（value-based）和基于策略（policy-based）兩種，在考慮多智能體問題時(shí)，主要的方式是在值函數(shù)的定義或者是策略的定義中引入多智能體的相關(guān)因素，并設(shè)計(jì)相應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)作為值函數(shù)模型和策略模型，最終訓(xùn)練得到的模型能夠適應(yīng)（直接或者是潛在地學(xué)習(xí)到智能體相互之間的復(fù)雜關(guān)系），在具體任務(wù)上獲得不錯(cuò)的效果。

2.1 policy-based 的方法

在完全合作的 setting 下，多智能體整體通常需要最大化全局的期望回報(bào)。前面提到一種完全集中式的方式：通過一個(gè)中心模塊來完成全局信息的獲取和決策計(jì)算，能夠直接地將適用于單智能體的 RL 方法拓展到多智能體系統(tǒng)中。但通常在現(xiàn)實(shí)情況中，中心化的控制器（centralized controller）并不一定可行，或者說不一定是比較理想的決策方式。而如果采用完全分布式的方式，每個(gè)智能體獨(dú)自學(xué)習(xí)自己的值函數(shù)網(wǎng)絡(luò)以及策略網(wǎng)絡(luò)、不考慮其他智能體對(duì)自己的影響，無法很好處理環(huán)境的不穩(wěn)定問題。利用強(qiáng)化學(xué)習(xí)中 actor-critic 框架的特點(diǎn)，能夠在這兩種極端方式中找到協(xié)調(diào)的辦法。

1. 多智能體 DDPG 方法（Multi-Agent Deep Deterministic Policy Gradient, MADDPG）

這種方法是在深度確定策略梯度（Deep Deterministic Policy Gradient，DDPG）方法的基礎(chǔ)上、對(duì)其中涉及到的 actor-critic 框架進(jìn)行改進(jìn)，使用集中式訓(xùn)練、分布式執(zhí)行的機(jī)制（centralized training and decentralized execution），為解決多智能體問題提供了一種比較通用的思路。

MADDPG 為每個(gè)智能體都建立了一個(gè)中心化的 critic，它能夠獲取全局信息（包括全局狀態(tài)和所有智能體的動(dòng)作）并給出對(duì)應(yīng)的值函數(shù) Qi(x,a1,...,an)，這在一定程度上能夠緩解多智能體系統(tǒng)環(huán)境不穩(wěn)定的問題。另一方面，每個(gè)智能體的 actor 則只需要根據(jù)局部的觀測(cè)信息作出決策，這能夠?qū)崿F(xiàn)對(duì)多智能體的分布式控制。

在基于 actor-critic 框架的學(xué)習(xí)過程中，critic 和 actor 的更新方式和 DDPG 類似。對(duì)于 critic，它的優(yōu)化目標(biāo)為：

對(duì)于 actor，考慮確定性策略μi(ai|oi)，策略更新時(shí)的梯度計(jì)算可以表示為：

圖 6：中心化的 Q 值學(xué)習(xí)（綠色）和分布式的策略執(zhí)行（褐色）。Q 值獲取所有智能體的觀測(cè)信息 o 和動(dòng)作 a，策略π根據(jù)個(gè)體的觀測(cè)信息來輸出個(gè)體動(dòng)作。圖源：[9]

在 MADDPG 中，個(gè)體維護(hù)的中心化 Q 值需要知道全局的狀態(tài)信息和所有智能體的動(dòng)作信息，此時(shí)假設(shè)了智能體能夠通過通信或者是某種方式得知其他智能體的觀測(cè)值和策略，這種假設(shè)前提過于嚴(yán)格。MADDPG 進(jìn)一步提出了可以通過維護(hù)策略逼近函數(shù) \ hat{\miu}來估計(jì)其他智能體的策略，通過對(duì)其他智能體的行為建模使得維護(hù)中心化的 Q 值、考慮聯(lián)合動(dòng)作效應(yīng)對(duì)單個(gè)個(gè)體來說是可行的。智能體 i 在逼近第 j 個(gè)智能體的策略函數(shù)時(shí)，其優(yōu)化目標(biāo)是令策略函數(shù)能夠近似經(jīng)驗(yàn)樣本中智能體 j 的行為，同時(shí)考慮該策略的熵，可表示為：

除了考慮聯(lián)合動(dòng)作以外，MADDPG 在處理環(huán)境不穩(wěn)定問題方面還使用了策略集成（policies ensemble）的技巧。由于環(huán)境中的每個(gè)智能體的策略都在迭代更新，因此很容易出現(xiàn)單個(gè)智能體的策略對(duì)其他智能體的策略過擬合，即當(dāng)其他智能體的策略發(fā)生改變時(shí)，當(dāng)前得到的最優(yōu)策略不一定能很好的適應(yīng)其他智能體的策略。為了緩和過擬合問題，MADDPG 提出了策略集成的思想，即對(duì)于單個(gè)智能體 i，它的策略μi 是由多個(gè)子策略μi^k 構(gòu)成的集合。在一個(gè) episode 中，只使用一種從集合中采樣得到的子策略進(jìn)行決策和完成交互。在學(xué)習(xí)過程中最大化的目標(biāo)是所有子策略的期望回報(bào)，即