強化學(xué)習(xí)教程，強化學(xué)習(xí)教程3-actor-critic：value函數(shù)估計和policy gradient

化學(xué)
2025-05-19

強化學(xué)習(xí)教程？通過在不同時間尺度下結(jié)合價值函數(shù)和行動價值的估計，可以實現(xiàn)單步TD或無限步MC的結(jié)合，為復(fù)雜任務(wù)提供更為有效和穩(wěn)定的策略更新機制。綜上所述，ActorCritic方法通過結(jié)合value函數(shù)估計和policy gradient的優(yōu)點，并利用優(yōu)勢函數(shù)減小梯度估計的方差，為強化學(xué)習(xí)中的復(fù)雜任務(wù)提供了更為有效和穩(wěn)定的解決方案。那么，強化學(xué)習(xí)教程？一起來了解一下吧。

IsaacLab從入門到精通（四）強化學(xué)習(xí)流程運作

StableBaselines3環(huán)境配置與訓(xùn)練教程

要開始使用StableBaselines3進(jìn)行強化學(xué)習(xí)，首先需要進(jìn)行環(huán)境配置。你可以選擇安裝rl-baseline3-zoo，這將提供必要的依賴。如果需要記錄訓(xùn)練過程，可以安裝相關(guān)的視頻保存依賴。

以PPO算法和經(jīng)典環(huán)境CartPole-v1為例，運行訓(xùn)練后，你會看到類似格式的輸出。對于可視化，如果你在遠(yuǎn)程服務(wù)器上無法直接查看，可以設(shè)置保存訓(xùn)練視頻，只需安裝相關(guān)插件并運行。可能會遇到字體問題，遇到字體路徑錯誤時，只需在rl_zoo3/record_training.py中的指定行添加自己的字體文件路徑，Windows用戶通常在C:\Windows\Fonts，如果不是，可以上傳一個。

對于更復(fù)雜的環(huán)境如Acrobot-v1和Ant-v4，它們基于Mujoco，需要額外配置Mujoco環(huán)境。對于這些環(huán)境，你可以參考之前的相關(guān)文章獲取配置指導(dǎo)。由于Acrobot-v1和Ant-v4的gif輸出過大，可能只能通過截圖來展示。

強化學(xué)習(xí)庫StableBaselines3小白教程（一）環(huán)境配置和訓(xùn)練

本文介紹了ICML 2020年的因果強化學(xué)習(xí)入門教程，主要探討了因果關(guān)系在強化學(xué)習(xí)中的應(yīng)用與挑戰(zhàn)。以下是三個核心任務(wù)的概述：

CRL-TASK 1: Generalized Policy Learning (GPL)

任務(wù)一是利用觀測數(shù)據(jù)加速學(xué)習(xí)，但受限于可能存在的未觀測到的confounder。在滿足特定假設(shè)的情況下，可以從觀測數(shù)據(jù)中推斷干預(yù)后的分布，否則則無法直接計算。通過計算分布的界，可以進(jìn)行類似拒絕采樣的策略，避免基于錯誤先驗導(dǎo)致的錯誤結(jié)果。

CRL-TASK 2: WHEN AND WHERE TO INTERVENE?

任務(wù)二是確定何時和如何干預(yù)。并非所有變量都需要同時干預(yù)，同時干預(yù)可能會影響最優(yōu)結(jié)果。在實際操作中，需要考慮干預(yù)時機和策略，例如選擇干預(yù)變量的子集，利用干預(yù)等價性和預(yù)測性原則簡化決策空間。

CRL-TASK 3: COUNTERFACTUAL DECISION-MAKING

任務(wù)三是基于反事實進(jìn)行決策，不僅要考慮直接的干預(yù)，還要理解agent的真實意圖，并據(jù)此推斷反事實情況，以制定出基于反事實結(jié)果的最優(yōu)行動策略。

通過以上任務(wù)，教程深入探討了因果強化學(xué)習(xí)中的問題與解決方案，借助反事實和因果推理，為實際問題的解決提供了新的思考角度。

強化學(xué)習(xí)教程3-actor-critic：value函數(shù)估計和policy gradient

在本篇教程中，我們將深入解析IsaacLab強化學(xué)習(xí)的訓(xùn)練流程，從環(huán)境初始化到算法配置，再到實戰(zhàn)操作。首先，讓我們從環(huán)境載入開始。

在強化學(xué)習(xí)工程的核心部分，我們會在main流程中初始化已創(chuàng)建的環(huán)境。利用gym這個工具包（github.com/openai/gym），我們將環(huán)境進(jìn)行標(biāo)準(zhǔn)化包裝，以提供統(tǒng)一的API，如env.reset()。同時，它為環(huán)境和算法之間的交互提供了便利，并通過任務(wù)命名便于管理。在使用gym.make()初始化時，我們會加載之前定義的強化學(xué)習(xí)環(huán)境設(shè)置，如ManagerBasedRLEnvCfg。

環(huán)境初始化后，我們轉(zhuǎn)向強化學(xué)習(xí)算法庫的選擇。IsaacLab提供了多種并行化支持的算法框架，如skrl、rlgames和rsl-rl。skrl封裝完善，適合快速上手但定制化較差；rlgames雖然可讀性稍遜，但功能與skrl相當(dāng)，不過使用案例較少；而rsl-rl由IsaacLab官方支持，代碼簡潔，但算法示例較為單一，后續(xù)教程將主要圍繞rsl-rl展開。

在rsl-rl的工程流程中，訓(xùn)練和推理任務(wù)的設(shè)置至關(guān)重要。通過RslRlOnPolicyRunnerCfg，我們可以管理庫內(nèi)的各項設(shè)置，創(chuàng)建任務(wù)實例。

因果強化學(xué)習(xí)入門

本文提供StableBaselines3小白教程，重點講解環(huán)境配置與訓(xùn)練流程，旨在簡化學(xué)習(xí)過程。首先，進(jìn)行環(huán)境配置，涉及安裝基礎(chǔ)依賴如rl-baseline3-zoo，以及可選的log依賴，以確保訓(xùn)練過程記錄詳盡。接下來，以ppo算法與CartPole-v1環(huán)境為例，展示訓(xùn)練實例，目標(biāo)是獲取類似于特定格式的輸出結(jié)果。

考慮到使用遠(yuǎn)程服務(wù)器的實際情況，本文介紹保存訓(xùn)練視頻的方法，包括安裝相關(guān)依賴，并執(zhí)行特定命令。在視頻保存過程中，可能遇到的字體報錯，可通過在rl_zoo3/record_training.py文件中137-139行插入自定義字體文件路徑來解決。對于windows系統(tǒng)用戶，字體路徑通常位于C:\Windows\Fonts目錄下，如需在遠(yuǎn)程服務(wù)器上使用本地字體文件，建議上傳至服務(wù)器。

針對某些環(huán)境如Acrobot-v1和Ant-v4，由于它們基于mujoco，因此在配置時需額外考慮mujoco環(huán)境的設(shè)置。這部分內(nèi)容可參考作者先前的文章進(jìn)行詳細(xì)指導(dǎo)。

最后，本文以圖片形式展示訓(xùn)練視頻的保存結(jié)果，由于gif文件過大，僅提供截圖展示訓(xùn)練過程及最終效果。通過本教程，小白用戶將能順利配置環(huán)境并進(jìn)行訓(xùn)練，獲取所需的結(jié)果。

強化學(xué)習(xí)經(jīng)典教材及課程推薦

【一】入門學(xué)習(xí)

1.1. 書籍：《Reinforcement Learning: An Introduction》

這本書是由Richard Sutton教授編寫的，他是強化學(xué)習(xí)的創(chuàng)始人之一，也是業(yè)內(nèi)公認(rèn)的經(jīng)典入門教材。適合新手入門，涵蓋了基本知識和基礎(chǔ)算法，并包括一定數(shù)量的應(yīng)用實例。但因為撰寫時間較早，理論的完備性略有不足，部分知識有輕微過時，對2010年之后的深度化算法進(jìn)展介紹較少。

鏈接：Reinforcement Learning: An Introduction

1.2. 課程：《Reinforcement Learning》

由David Silver博士講授，課程框架大致沿用了《Reinforcement Learning: An Introduction》的書籍，配合該書聽課，更容易入門，非常適合初學(xué)者進(jìn)入強化學(xué)習(xí)領(lǐng)域。

鏈接：davidsilver.uk/teaching...

1.3. 課程：《Deep Reinforcement Learning》

由史蒂文斯理工學(xué)院的Shusen Wang博士主講，課程通過生動有趣的例子，以簡潔有力的語言，講解強化學(xué)習(xí)的基本概念以及算法原理。

以上就是強化學(xué)習(xí)教程的全部內(nèi)容，本文介紹了ICML 2020年的因果強化學(xué)習(xí)入門教程，主要探討了因果關(guān)系在強化學(xué)習(xí)中的應(yīng)用與挑戰(zhàn)。以下是三個核心任務(wù)的概述：CRL-TASK 1: Generalized Policy Learning (GPL)任務(wù)一是利用觀測數(shù)據(jù)加速學(xué)習(xí)，但受限于可能存在的未觀測到的confounder。在滿足特定假設(shè)的情況下，可以從觀測數(shù)據(jù)中推斷干預(yù)后的分布，內(nèi)容來源于互聯(lián)網(wǎng)，信息真?zhèn)涡枳孕斜鎰e。如有侵權(quán)請聯(lián)系刪除。

上一篇：氫氧化鈉與硫酸反應(yīng)的化學(xué)方程式，氫氧化鈣與鹽酸反應(yīng)的化學(xué)方程

下一篇：sn是什么化學(xué)元素，TIN是什么化學(xué)元素