Dueling Network Architectures for Deep Reinforcement Learning 讀後筆記

Dueling Network Architectures for Deep Reinforcement Learning

 

 

上圖即為原始網路,下圖為dueling網路 主要的不同點在於–conv攤平後的神經元 分別分成兩邊

上面稱為value network 下面為advantage network ,其實講白化一點就是把state vale 和 action value 都考慮在內

 

本篇論文用此圖當例子說明為何要分成兩部份去訓練 左圖代表value network 右圖代表advantage network 橘色的部份代表當前網路注意的範圍 至於如何產生的 論文參考[1]

由上圖比較可以發現 value network 在意的是遠方出現的車 而advantage network 完全不在意 但是環境如果換成下面這個 由圖可以很明顯發現advantage network 在意的是附近出現的車輛而value network 雖然也有觀察到附近的車但是由圖顏色仍然可以比較出來 遠方的橘色範圍比較大而且顏色也比較深 說明value network 還是比較重視遠方車的

 

這系統就好像我們的人腦一樣 每一塊大腦的功能專注於某一件事 最後大腦要把所有資訊整合做出最後決策 因此我認為這篇paper 又向發現大腦的奧秘更前進一步了 難怪會成為ICML的best paper

 

 

 

這是DeepMind做出與原本DQN的分數比較 每一列代表不同的Atari 遊戲 可以看出效果的確提升很多

 

下面分析改進方式:

論文前面就有提到 這是個把前人的研究成果 [2] 套到DQN上 所形成的一個新的網路架構 這是Baird 再1993做的研究 他證明出advantage updating 確時收斂的比 Q learning快 根據定義我們可以得到adavantage function 如下

 

 

Moreover, it would be wrong to conclude that V (s; θ, β) is a good estimator of the state-value function, or likewise that A(s, a; θ, α) provides a reasonable estimate of the advantage function.

Equation (7) is unidentifiable in the sense that given Q we cannot recover V and A uniquely. To see this, add a constant to V (s; θ, β) and subtract the same constant from A(s, a; θ, α). This constant cancels out resulting in the same Q value. This lack of identifiability is mirrored by poor practical performance when this equation is used directly.

 

但是這會讓我們產生無法分辨的問題 解決方法如下

To address this issue of identifiability, we can force the advantage function estimator to have zero advantage at the chosen action. That is, we let the last module of the network implement the forward mapping

 

 

 

但是後來實驗發現 改成下面這個結果也都和上面這個公式差不多 因此作者說此篇論文所做出來的實驗都是用下面這個公式

 

 

因此全部兜起來 就和DQN一樣 只是找max_q 的話不再只是用最後一層的神經元去找 而是採用倒數第二層的神經元算出來的資訊的max去找

 

論文中先用小實驗做出 policy evaluation 測試

 

左圖是一個10個垂直方塊 接50個平行方塊 然後再接10個垂直方塊的 corridor

action 總共有4個 分別是 上下左右 還有一個不動 SE代表square error

 

 

可以發現綠色的線的確比較快收斂  10個action 代表隨機塞6個 don’t move 進去action space 中 20個也是一樣的道理 由圖可以發現 愈多action space 效果愈顯著

 

這是我再https://github.com/devsisters/DQN-tensorflow找的程式

 

這是他的網路架構

 

 

最後執行這行程式

 

其實令我最驚豔的是這句話

The dueling network automatically produces separate estimates of the state value function and advantage function, without any extra supervision.

而且在後面又講了一次

The estimates V (s; θ, β) and A(s, a; θ, α) are computed automatically without any extra supervision or algorithmic modifi- cations.

竟然會自動產生 state value 和 action value 而且還不用supervise 它 簡直太神奇!!

 

[1] Simonyan, K., Vedaldi, A., and Zisserman, A. Deep inside convolutional networks: Visualising image classification models and saliency maps. arXiv preprint arXiv:1312.6034, 2013.

[2] Baird, L.C. Advantage updating. Technical Report WLTR-93-1146, Wright-Patterson Air Force Base, 1993.

0 0 votes
Article Rating
Subscribe
Notify of
guest

1 Comment
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
阿香
阿香
7 years ago

請教paper當中公式(7)前兩小段段末, Moreover, for a deterministic policy, a∗ = arg maxa‘∈A Q(s, a’), it follows that Q(s, a∗) = V (s) and hence A(s, a∗) = 0.
不知怎麼解釋(為什麼)?
某狀態s下選擇了a*動作(此時Q值最大),此時Q值相當於s的狀態價值,因此在s之下a*的動作價值為0.
(ㄧ)選了最佳動作,動作價值卻為零?(二)還是動作價值為0,代表無學習價值了?
版主回覆:(05/13/2017 12:04:18 PM)
這個要從公式(3)開始看起,作者定義了A_pi(s,a)=q_pi(s,a)-v_pi(s)
因此等同 A*(s,a)=q*(s,a)-v*(s)
從這個定義公式中就可以知道A_*(s,a) 不是負的就是0,且0就是當a採取最佳動作時才會產生的。
這裡要注意的是 A:代表 advantage function 是另外定義出來的,不要和 q(s,a) action value 搞混了。