當(dāng)前位置:首頁 > IT技術(shù) > 其他 > 正文

Offline Reinforcement Learning
2022-05-29 22:44:38

主要介紹自己閱讀《Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems 》《A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open Problems》
這兩篇文章后的一些感悟和梳理 如果有小伙伴感興趣的話我們可以多多討論一下

簡介

Offline Reinforcement Learning 的中文名是離線強化學(xué)習(xí),所謂離線和單機游戲給人的感覺很像:自己玩自己的,不用和別人一起。強化學(xué)習(xí)中的離線也就意味著你的agent不和外界交互,使用的數(shù)據(jù)是固定的。
這里有必要重申一下強化學(xué)習(xí)的on policy 和 off policy 兩種方法的區(qū)別在于優(yōu)化的策略和獲得數(shù)據(jù)的策略是否相同,一種是在自己探索的過程中學(xué)習(xí),一種是看著別人的經(jīng)驗為自己所用。

分類

說實話,在讀《Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems》的時候介紹最多的是重要性采樣和策略約束、不確定性限制這類方法。經(jīng)過多次總結(jié)加上看了《A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open Problems》的總結(jié),有了一點自己小小的感悟。

離線RL和普通RL的區(qū)別在于數(shù)據(jù)不能更新,所以在傳統(tǒng)解法的基礎(chǔ)上會面臨新的問題,但大體解決思路不變:依然分為 model-based 和 model-free兩大類。

  1. 如果能夠?qū)顟B(tài)轉(zhuǎn)移和獎勵精確建模,那么就可以直接轉(zhuǎn)化為動態(tài)規(guī)劃進行求解。用歷史數(shù)據(jù)擬合出來的模型產(chǎn)生新數(shù)據(jù)進行計算,如果狀態(tài)太多不易求解,直接采樣估計也是一個很不錯的想法。
  2. 如果對環(huán)境模型不夠了解的話,就只能根據(jù)自己走過的路進行推斷和學(xué)習(xí)了。

在具體求解策略時,也有兩種不同的思路:一種是動作狀態(tài)值函數(shù)(狀態(tài)值函數(shù))通過貪婪策略得解,在得到值函數(shù)時根據(jù)動作離散和連續(xù)又可以分為表格型和函數(shù)近似型;另一種是策略梯度,即直接用函數(shù)擬合策略,找到合適參數(shù)也就找到了好的策略。在這兩種方法的基礎(chǔ)上,出現(xiàn)了Actor-Critic方法結(jié)合了值函數(shù)和策略梯度,通過兩者的互相更新得到更優(yōu)的結(jié)果。

在上述表格中還提及了trajectory distribution 的相關(guān)內(nèi)容,不幸的是我還沒有參透這一方面到底是依靠什么來得到策略?;蛟S是軌跡分布,然后看出哪類軌跡得到的獎勵多,沒有的擬合一下,之后直接使用?【待補充...】

注:

介紹

這兩篇文章一共詳細介紹了重要性采樣、策略約束、不確定性估計和正則化這四類方法,還有 one-step AC 和 multi-step AC 等多個方法。之后就結(jié)合我自己讀論文的想法和網(wǎng)上的一些資料對這些方法進行梳理和理解。
以下放一張描述 Offline RL 發(fā)展很貼切的圖片(源自論文Reinforcement Learning in Practice: Opportunities and Challenges)

之后的每一類方法都會分開介紹~ 希望能早日弄懂-_-!

本文摘自 :https://www.cnblogs.com/

開通會員,享受整站包年服務(wù)立即開通 >