1. <span id="4x4v6"></span>

    1. <button id="4x4v6"><acronym id="4x4v6"></acronym></button>

      <tbody id="4x4v6"></tbody>

      <dd id="4x4v6"><pre id="4x4v6"></pre></dd>

      當前位置 博文首頁 > tianjuewudi的博客:強化學習之PPO

        tianjuewudi的博客:強化學習之PPO

        作者:[db:作者] 時間:2021-09-26 09:53

        閱讀本文前先了解TRPO算法有助于理解,我對此也寫過博客:https://blog.csdn.net/tianjuewudi/article/details/120191097

        參考李宏毅老師的視頻:https://www.bilibili.com/video/BV1Wv411h7kN?p=80

        PPO,全名Proximal Policy Optimization,近端策略優化算法。

        PPO算法是一種新型的Policy Gradient算法,Policy Gradient算法對步長十分敏感,但是又難以選擇合適的步長,在訓練過程中新舊策略的的變化差異如果過大則不利于學習。PPO提出了新的目標函數可以再多個訓練步驟實現小批量的更新,解決了Policy Gradient算法中步長難以確定的問題。其實TRPO也是為了解決這個思想但是直接求解TRPO這種帶約束的問題是十分復雜的,他與PPO算法的效果差不多,但是PPO將KL散度作為懲罰項,更加容易求解。

        PPO

        PPO也分為Actor的部分和Critic的部分。

        首先定義優勢函數:
        A t ^ = ∑ t ′ > t γ t ′ ? t r t ′ ? V ? ( s t ) \hat{A_t} = \sum_{t'>t} \gamma^{t'-t}r_{t'} - V_{\phi}(s_t) At?^?=t>t?γt?trt??V??(st?)
        更新Actor的部分我們把獎勵函數設置成:
        J P P O ( θ ) = ∑ t = 1 T π θ ( a t ∣ s t ) π θ o l d ( a t ∣ s t ) A ^ t ? λ K L [ π θ o l d ∣ π θ ] J_{PPO}(\theta) = \sum_{t=1}^T \frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}\hat{A}_t - \lambda KL[\pi_{\theta_{old}}|\pi_{\theta}] JPPO?(θ)=t=1T?πθold??(at?st?)πθ?(at?st?)?A^t??λKL[πθold??πθ?]

        • 這里的A其實應該用新策略采樣出來計算的Advantage函數,但由于參數改變的不多,我們可以用舊策略的A來近似新策略的A。

        • 前面一項的設置是因為我們只能充舊策略中采樣而不能從新策略中采樣所以做了important Sampling。同時這樣做可以把我們的策略從on-policy轉變為off-policy,舊策略可以收集很多數據之后,就能用這些數據訓練很多次的網絡,然后再重新采樣。

        • 這樣當我們新策略的值遠大于舊概率時,更新會快一些,但由于后面一項KL散度的存在,不會讓概率分布差距過大的新舊策略更新太快,限制了新策略的更新幅度。

        而對于Critic部分,我們構建一個輸出狀態價值的網絡,訓練網絡接近預定值:
        L B L ( ? ) = ? ∑ t = 1 T ( ∑ t ′ > t γ t ′ ? t r t ′ ? V ? ( s t ) ) 2 L_{BL}(\phi) = -\sum_{t=1}^{T}(\sum_{t'>t} \gamma^{t'-t}r_{t'}-V_{\phi}(s_t))^2 LBL?(?)=?t=1T?(t>t?γt?trt?

      英雄哪里出來:??13萬字《C語言動漫對話教程(入門篇)》??(建議收 大番薯:編程術語英漢對照 風信子的貓Redamancy的快樂星球:PRML - Chapter 02 Probability 英雄哪里出來:??13萬字《C語言動漫對話教程(入門篇)》??(建議收 大番薯:編程術語英漢對照 風信子的貓Redamancy的快樂星球:PRML - Chapter 02 Probability 英雄哪里出來:??13萬字《C語言動漫對話教程(入門篇)》??(建議收 大番薯:編程術語英漢對照 風信子的貓Redamancy的快樂星球:PRML - Chapter 02 Probability 英雄哪里出來:??13萬字《C語言動漫對話教程(入門篇)》??(建議收 大番薯:編程術語英漢對照 風信子的貓Redamancy的快樂星球:PRML - Chapter 02 Probability 英雄哪里出來:??13萬字《C語言動漫對話教程(入門篇)》??(建議收 大番薯:編程術語英漢對照 風信子的貓Redamancy的快樂星球:PRML - Chapter 02 Probability 英雄哪里出來:??13萬字《C語言動漫對話教程(入門篇)》??(建議收 大番薯:編程術語英漢對照 風信子的貓Redamancy的快樂星球:PRML - Chapter 02 Probability 英雄哪里出來:??13萬字《C語言動漫對話教程(入門篇)》??(建議收 大番薯:編程術語英漢對照 風信子的貓Redamancy的快樂星球:PRML - Chapter 02 Probability 英雄哪里出來:??13萬字《C語言動漫對話教程(入門篇)》??(建議收 大番薯:編程術語英漢對照 風信子的貓Redamancy的快樂星球:PRML - Chapter 02 Probability 英雄哪里出來:??13萬字《C語言動漫對話教程(入門篇)》??(建議收 大番薯:編程術語英漢對照 風信子的貓Redamancy的快樂星球:PRML - Chapter 02 Probability 英雄哪里出來:??13萬字《C語言動漫對話教程(入門篇)》??(建議收 大番薯:編程術語英漢對照 風信子的貓Redamancy的快樂星球:PRML - Chapter 02 Probability 英雄哪里出來:??13萬字《C語言動漫對話教程(入門篇)》??(建議收 大番薯:編程術語英漢對照 風信子的貓Redamancy的快樂星球:PRML - Chapter 02 Probability 英雄哪里出來:??13萬字《C語言動漫對話教程(入門篇)》??(建議收 大番薯:編程術語英漢對照 風信子的貓Redamancy的快樂星球:PRML - Chapter 02 Probability 英雄哪里出來:??13萬字《C語言動漫對話教程(入門篇)》??(建議收 大番薯:編程術語英漢對照 風信子的貓Redamancy的快樂星球:PRML - Chapter 02 Probability 英雄哪里出來:??13萬字《C語言動漫對話教程(入門篇)》??(建議收 大番薯:編程術語英漢對照 風信子的貓Redamancy的快樂星球:PRML - Chapter 02 Probability 英雄哪里出來:??13萬字《C語言動漫對話教程(入門篇)》??(建議收 大番薯:編程術語英漢對照 風信子的貓Redamancy的快樂星球:PRML - Chapter 02 Probability 英雄哪里出來:??13萬字《C語言動漫對話教程(入門篇)》??(建議收 大番薯:編程術語英漢對照 風信子的貓Redamancy的快樂星球:PRML - Chapter 02 Probability 英雄哪里出來:??13萬字《C語言動漫對話教程(入門篇)》??(建議收 大番薯:編程術語英漢對照
      成本人片无码中文字幕免费

      1. <span id="4x4v6"></span>

        1. <button id="4x4v6"><acronym id="4x4v6"></acronym></button>

          <tbody id="4x4v6"></tbody>

          <dd id="4x4v6"><pre id="4x4v6"></pre></dd>