發(fā)布于:2020-12-24 16:15:48
0
871
0
在過(guò)去的幾年中,深度強(qiáng)化學(xué)習(xí)取得了重大進(jìn)展,在機(jī)器人控制,游戲和科學(xué)問(wèn)題方面取得了成功。盡管RL方法提供了一種通用模式,代理可以從其自身與環(huán)境的交互中學(xué)習(xí),但是對(duì)“主動(dòng)”數(shù)據(jù)收集的要求也是將RL方法應(yīng)用于實(shí)際問(wèn)題的主要障礙,因?yàn)橹鲃?dòng)數(shù)據(jù)收集通常是昂貴且可能不安全。RL的另一種“數(shù)據(jù)驅(qū)動(dòng)”范式,稱(chēng)為離線(xiàn)RL (或 批處理RL )最近,作為一種有效的現(xiàn)實(shí)世界RL的可行途徑,它重新獲得了普及。離線(xiàn)RL僅需要從以前收集的數(shù)據(jù)集中學(xué)習(xí)技能,而無(wú)需任何活躍的環(huán)境交互作用。它提供了一種利用多種來(lái)源的先前收集的數(shù)據(jù)集的方式來(lái)構(gòu)建復(fù)雜的決策引擎的方法,包括人類(lèi)演示,先前的實(shí)驗(yàn),特定領(lǐng)域的解決方案,甚至是來(lái)自不同但相關(guān)問(wèn)題的數(shù)據(jù)。
最近的幾篇論文,包括我們先前的工作,都討論了離線(xiàn)RL是一個(gè)具有挑戰(zhàn)性的問(wèn)題-它需要處理分布變化,結(jié)合函數(shù)逼近和采樣誤差可能使標(biāo)準(zhǔn)RL方法無(wú)法實(shí)現(xiàn)從靜態(tài)數(shù)據(jù)集中有效學(xué)習(xí)。然而,在過(guò)去的一年中,已經(jīng)提出了許多方法來(lái)解決這個(gè)問(wèn)題,并且在該領(lǐng)域中已經(jīng)取得了實(shí)質(zhì)性的進(jìn)展,無(wú)論是在開(kāi)發(fā)新算法還是在實(shí)際問(wèn)題上的應(yīng)用。在此博客文章中,我們將討論我們的兩項(xiàng)改進(jìn)離線(xiàn)RL前沿的工作-保守Q學(xué)習(xí)(CQL),這是一種用于離線(xiàn)RL和COG的簡(jiǎn)單有效的算法,這是一種機(jī)器人學(xué)習(xí)框架,它利用有效的離線(xiàn)RL方法(例如CQL)來(lái)允許座席將過(guò)去的數(shù)據(jù)與最近的經(jīng)驗(yàn)聯(lián)系起來(lái),從而使機(jī)器人在執(zhí)行各種新任務(wù)時(shí)需要執(zhí)行某種“常識(shí)”概括場(chǎng)景或初始條件。COG框架中的原理也可以應(yīng)用于其他領(lǐng)域,并且不適用于機(jī)器人技術(shù)。
CQL:離線(xiàn)RL的一種簡(jiǎn)單有效的方法
離線(xiàn)RL中的主要挑戰(zhàn)是成功處理分配轉(zhuǎn)移:學(xué)習(xí)有效的技能需要偏離數(shù)據(jù)集中的行為,并對(duì)看不見(jiàn)的結(jié)果做出反事實(shí)的預(yù)測(cè)(即回答“假設(shè)”查詢(xún))。但是,無(wú)法可靠地做出對(duì)事實(shí)的預(yù)測(cè),這些預(yù)測(cè)與數(shù)據(jù)集中的行為有很大差異。憑借RL算法中的標(biāo)準(zhǔn)更新過(guò)程(例如,Q學(xué)習(xí)在分布外輸入處查詢(xún)Q函數(shù),以在訓(xùn)練期間計(jì)算自舉目標(biāo)),標(biāo)準(zhǔn)的策略外深度RL算法往往會(huì)高估值這種看不見(jiàn)的結(jié)果,從而偏離了數(shù)據(jù)集而獲得了看似有希望的結(jié)果,但實(shí)際上最終以失敗告終。
在離線(xiàn)數(shù)據(jù)集上訓(xùn)練標(biāo)準(zhǔn)的非策略性深度RL算法(例如SAC)時(shí),高估了看不見(jiàn)的,分布不均的結(jié)果。請(qǐng)注意,盡管在所有情況下該政策的回報(bào)均為負(fù),但Q函數(shù)估計(jì)(即算法對(duì)其性能的信念)非常高(?1010 在某些情況下)。
學(xué)習(xí)保守的Q函數(shù)
面對(duì)這種分布轉(zhuǎn)移的“安全”策略應(yīng)保持保守:如果我們明確地保守地估計(jì)未見(jiàn)成果的價(jià)值(即為它們分配一個(gè)低值),則可以保證執(zhí)行未見(jiàn)行為的政策的估計(jì)價(jià)值或績(jī)效。很小。將此類(lèi)保守估計(jì)用于策略?xún)?yōu)化將防止策略執(zhí)行看不見(jiàn)的操作,并且策略將可靠地執(zhí)行。保守的Q學(xué)習(xí)(CQL)正是這樣做的-它學(xué)習(xí)了一個(gè)價(jià)值函數(shù),以便該學(xué)習(xí)的價(jià)值函數(shù)下的策略的估計(jì)性能下限其真實(shí)值。該下限屬性可確保不會(huì)高估看不見(jiàn)的結(jié)果,從而防止離線(xiàn)RL帶來(lái)的主要問(wèn)題。
單純的Q功能訓(xùn)練可能導(dǎo)致高估了看不見(jiàn)的動(dòng)作(即,沒(méi)有支持的動(dòng)作),這會(huì)使低回報(bào)行為錯(cuò)誤地顯示出希望。通過(guò)低估某個(gè)狀態(tài)下看不見(jiàn)的行為的Q值函數(shù),CQL確??床灰?jiàn)的行為的值不會(huì)被高估,從而產(chǎn)生較低界的屬性。
為了獲得策略的實(shí)際Q值功能的下限,CQL使用兩個(gè)目標(biāo)的總和來(lái)訓(xùn)練Q功能-標(biāo)準(zhǔn)TD誤差和正則化器,該規(guī)則化器將帶有高估值的未發(fā)現(xiàn)動(dòng)作的Q值最小化,同時(shí)將其最大化數(shù)據(jù)集上的預(yù)期Q值:
然后,我們可以保證所學(xué)政策的回報(bào)估計(jì) π 下 問(wèn)πCQL 是實(shí)際政策效果的下限:
這意味著,通過(guò)在培訓(xùn)期間添加簡(jiǎn)單的正則化函數(shù),我們可以獲得非高估的Q函數(shù),并將其用于策略?xún)?yōu)化??梢允褂脭?shù)據(jù)集中的樣本來(lái)估計(jì)正則化器,因此不需要以前的工作所需要的明確的行為策略估計(jì)。行為策略估計(jì)不僅需要更多的機(jī)制,而且誘發(fā)的估計(jì)錯(cuò)誤(例如,當(dāng)數(shù)據(jù)分布難以建模時(shí))可能會(huì)損害使用此估計(jì)的下游離線(xiàn)RL。另外,可以通過(guò)調(diào)整正則化器的形式來(lái)導(dǎo)出CQL的大量算法實(shí)例化,前提是它仍可防止對(duì)看不見(jiàn)的動(dòng)作進(jìn)行過(guò)高估計(jì)。
CQL中唯一引入的變化是針對(duì)Q功能的修改的訓(xùn)練目標(biāo),如上所述。這使得直接在任何標(biāo)準(zhǔn)的深度Q學(xué)習(xí)或actor批評(píng)實(shí)現(xiàn)之上使用CQL變得很簡(jiǎn)單。
曾經(jīng)保守估計(jì)政策價(jià)值 問(wèn)πCQL 如要獲得CQL,CQL只需將此估算值插入?yún)⑴c者評(píng)論或Q學(xué)習(xí)方法中,然后進(jìn)行更新 π 從而使保守的Q函數(shù)最大化。
那么,CQL的表現(xiàn)如何?
我們?cè)u(píng)估了許多領(lǐng)域的CQL,包括基于圖像的Atari游戲以及D4RL基準(zhǔn)測(cè)試中的多項(xiàng)任務(wù)。在這里,我們介紹了D4RL基準(zhǔn)測(cè)試在A(yíng)nt Maze域上的結(jié)果。這些任務(wù)的目標(biāo)是將螞蟻從開(kāi)始狀態(tài)導(dǎo)航到目標(biāo)狀態(tài)。離線(xiàn)數(shù)據(jù)集由螞蟻的隨機(jī)運(yùn)動(dòng)組成,但沒(méi)有單個(gè)軌跡可以解決任務(wù)。任何成功的算法都需要將不同的子軌跡“縫合”在一起才能獲得成功。而先前的方法(BC,SAC,BCQ,BEAR,BRAC,AWR,AlgaeDICE)在簡(jiǎn)單的U形迷宮中表現(xiàn)合理,他們無(wú)法在較硬的迷宮中縫制軌跡。實(shí)際上,CQL是唯一取得非凡進(jìn)展的算法,在大中型迷宮上成功率超過(guò)50%和> 14%。這是因?yàn)橄裨谙确椒ㄖ心菢訉W(xué)習(xí)策略明確地約束到數(shù)據(jù)集往往過(guò)于保守:如果看不見(jiàn)的動(dòng)作具有較低的學(xué)習(xí)Q值,則無(wú)需將動(dòng)作約束到數(shù)據(jù)。由于CQL施加了“價(jià)值感知”正則化器,因此避免了這種過(guò)度保守的態(tài)度。
在D4RL的螞蟻迷宮導(dǎo)航任務(wù)中,以成功率(范圍[0,100])衡量的CQL和其他離線(xiàn)RL算法的性能??梢杂^(guān)察到,在較硬的迷宮域上,CQL的性能要比普通方法好得多。
在基于圖像的Atari游戲中,我們觀(guān)察到在某些情況下CQL優(yōu)于先前方法(QR-DQN,REM),例如在Breakout和Q上分別是5倍和36倍。?伯特分別指出,CQL是一種用于連續(xù)控制和離散動(dòng)作任務(wù)的有前途的算法,它不僅可以從低維狀態(tài)運(yùn)行,而且還可以作為原始圖像觀(guān)測(cè)工作。
有效的離線(xiàn)RL方法可以啟用哪些新功能?
離線(xiàn)RL的大多數(shù)進(jìn)步都已經(jīng)在標(biāo)準(zhǔn)RL基準(zhǔn)(包括如上所述的CQL)上進(jìn)行了評(píng)估,但是這些算法是否準(zhǔn)備好解決那些首先激發(fā)離線(xiàn)RL研究的現(xiàn)實(shí)問(wèn)題?與其他決策方法相比,脫機(jī)RL所承諾的一項(xiàng)重要功能是能夠攝取大型,多樣的數(shù)據(jù)集并生成廣泛適用于新場(chǎng)景的解決方案。例如,政策是在推薦視頻的有效的新用戶(hù)或政策可以執(zhí)行在機(jī)器人任務(wù)新場(chǎng)景。泛化能力在我們可能構(gòu)建的幾乎所有機(jī)器學(xué)習(xí)系統(tǒng)中都是必不可少的,但是典型的RL基準(zhǔn)測(cè)試任務(wù)不會(huì)測(cè)試此屬性。我們采取對(duì)解決這個(gè)問(wèn)題的一個(gè)步驟,而簡(jiǎn)單,應(yīng)用上的有效數(shù)據(jù)驅(qū)動(dòng)的離線(xiàn)RL方法頂級(jí)域名無(wú)關(guān)的原則,可以在實(shí)現(xiàn)高效的“常識(shí)”中的AI系統(tǒng)的概括。
COG:通過(guò)離線(xiàn)RL推廣的學(xué)習(xí)技能
COG是一種算法框架,用于利用大型,未標(biāo)記的各種行為數(shù)據(jù)集通過(guò)離線(xiàn)RL學(xué)習(xí)通用策略。作為一個(gè)激勵(lì)性的例子,考慮一個(gè)受過(guò)訓(xùn)練的機(jī)器人可以從打開(kāi)的抽屜中取出物體(如下所示)。當(dāng)放置在關(guān)閉抽屜的場(chǎng)景中時(shí),該機(jī)器人可能會(huì)發(fā)生故障,因?yàn)樗皬奈匆?jiàn)過(guò)這種情況(或初始狀態(tài))。
與現(xiàn)實(shí)世界中的場(chǎng)景類(lèi)似,在這些場(chǎng)景中,大型的未標(biāo)記數(shù)據(jù)集與有限的特定于任務(wù)的數(shù)據(jù)一起可用,我們的代理也提供了兩種類(lèi)型的數(shù)據(jù)集。特定于任務(wù)的數(shù)據(jù)集包含與任務(wù)相關(guān)的行為,但是先前的數(shù)據(jù)集可以包含在相同環(huán)境/設(shè)置中執(zhí)行的許多隨機(jī)或腳本行為。如果此先前數(shù)據(jù)集的子集可用于擴(kuò)展我們的技能(如下面的藍(lán)色所示),我們可以利用它來(lái)學(xué)習(xí)可以從新的初始條件解決任務(wù)的策略。請(qǐng)注意,并非所有先驗(yàn)數(shù)據(jù)都必須對(duì)下游任務(wù)有用(下面的紅色顯示),我們也不需要此先驗(yàn)數(shù)據(jù)集具有任何顯式標(biāo)簽或獎(jiǎng)勵(lì)。
討論,未來(lái)工作和總結(jié)
在過(guò)去的一年中,我們已采取步驟開(kāi)發(fā)離線(xiàn)RL算法,該算法可以更好地處理現(xiàn)實(shí)世界中的復(fù)雜性,例如多模式數(shù)據(jù)分布,原始圖像觀(guān)察,與任務(wù)無(wú)關(guān)的先驗(yàn)數(shù)據(jù)集等。然而,仍然存在一些具有挑戰(zhàn)性的問(wèn)題。像監(jiān)督學(xué)習(xí)方法一樣,由于對(duì)數(shù)據(jù)集進(jìn)行過(guò)多的訓(xùn)練,離線(xiàn)RL算法也可能“過(guò)度擬合”。這種“過(guò)度擬合”的性質(zhì)很復(fù)雜-它可能表現(xiàn)為過(guò)于保守和過(guò)于樂(lè)觀(guān)的解決方案。在許多情況下,這種“過(guò)度擬合”現(xiàn)象會(huì)導(dǎo)致條件不佳的神經(jīng)網(wǎng)絡(luò)(例如,過(guò)度預(yù)測(cè)的網(wǎng)絡(luò)),目前尚缺乏對(duì)該現(xiàn)象的確切了解。因此,未來(lái)工作的一個(gè)有趣途徑是設(shè)計(jì)可用于策略檢查點(diǎn)選擇或提前停止的模型選擇方法,從而緩解此問(wèn)題。另一個(gè)途徑是了解此“過(guò)擬合”問(wèn)題根源的原因,并利用這些見(jiàn)解直接提高離線(xiàn)RL算法的穩(wěn)定性。
最后,隨著我們逐漸走向現(xiàn)實(shí)世界,自我監(jiān)督學(xué)習(xí),表示學(xué)習(xí),遷移學(xué)習(xí),元學(xué)習(xí)等相關(guān)領(lǐng)域?qū)τ谂c離線(xiàn)RL算法結(jié)合應(yīng)用至關(guān)重要,尤其是在數(shù)據(jù)有限的環(huán)境中。這自然引發(fā)了一些理論和經(jīng)驗(yàn)問(wèn)題:哪種表示學(xué)習(xí)方案最適合離線(xiàn)RL方法?使用從數(shù)據(jù)中學(xué)到的獎(jiǎng)勵(lì)功能時(shí),離線(xiàn)RL方法的效果如何?哪些任務(wù)適合在離線(xiàn)RL中傳輸?我們熱切期待來(lái)年在該領(lǐng)域的進(jìn)展。
作者介紹
熱門(mén)博客推薦