99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

流式深度學習終于奏效了!強化學習之父Richard Sutton力薦

0
分享至

機器之心報道

機器之心編輯部

自然智能(Natural intelligence)過程就像一條連續的流,可以實時地感知、行動和學習。流式學習是 Q 學習和 TD 等經典強化學習 (RL) 算法的運作方式,它通過使用最新樣本而不存儲樣本來模仿自然學習。這種方法也非常適合資源受限、通信受限和隱私敏感的應用程序。

然而,在深度強化學習中,學習器(learners )幾乎總是使用批量更新和重放緩沖區,這種方式使得它們在計算上很昂貴,并且與流式學習不兼容。

研究認為批量深度強化學習之所以普遍,是因為它的樣本效率高。流式深度強化學習存在樣本效率問題,經常出現不穩定和學習失敗的情況。這一現象稱為流式障礙。

就像下圖展示的,流式強化學習需要從即時單個樣本進行更新,而無需存儲過去的樣本,而批量強化學習則依賴于存儲在重放緩沖區中的過去樣本的批量更新。



為了解決流式障礙,本文來自阿爾伯塔大學等機構的研究者提出了 stream-x 算法,這是第一類深度強化學習算法,用于克服預測和控制流式障礙,并匹配批量強化學習的樣本效率。



  • 論文地址:https://openreview.net/pdf?id=yqQJGTDGXN
  • 項目地址:https://github.com/mohmdelsayed/streaming-drl
  • 論文標題:Deep Reinforcement Learning Without Experience Replay, Target Networks, or Batch Updates

論文作者還提供了 stream-x 算法的最小實現(大約 150 行代碼),感興趣的讀者可以參考原項目。



本文證明了 stream-x 算法能夠克服流式障礙。

在電力消耗預測任務、MuJoCo Gym、DM Control Suite、MinAtar 和 Atari 2600 上的結果證明,該方法能夠作為現成的解決方案,克服流式障礙,提供以前無法通過流式方法實現的結果,甚至超越批量 RL 的性能。特別是,stream AC 算法在一些復雜的環境中達到了已知的最佳性能。

如下所示,經典的流方法(例如 Classic Q )和批處理 RL 方法的流式版本(例如 PPO1)由于流式障礙而表現不佳。相比之下, stream-x 算法(例如 stream Q )克服了流式障礙,并與批處理 RL 算法競爭,證明了其穩定性和魯棒性。



這項研究得到了強化學習之父 Richard Sutton 的轉發和評論:

「最初的強化學習(RL)算法受自然學習的啟發,是在線且增量式的 —— 也就是說,它們是以流的方式進行學習的,每當新的經驗增量發生時就學習,然后將其丟棄,永不再次處理。

流式算法簡單而優雅,但在深度學習中,RL 的首次重大成功并非來自流式算法。相反,像 DQN(深度 Q 網絡)這樣的方法將經驗流切割成單獨的轉換(transitions),然后以任意批次進行存儲和采樣。隨后的一系列工作遵循、擴展并完善了這種批量方法,發展出異步和離線強化學習,而流式方法卻停滯不前,無法在流行的深度學習領域中取得良好效果。

直到現在,阿爾伯塔大學的研究人員已經證明,在 Atari 和 Mujoco 任務上,流式強化學習(Streaming RL) 算法可以與 DQN 一樣有效。

在我看來,他們似乎是第一批熟悉流式強化學習算法的研究人員,認真地解決深度強化學習問題,而不受批量導向的軟件和批量導向的監督學習思維方式的過度影響?!?/p>



還有網友表示,流式算法確實塑造了強化學習的格局。



方法介紹

本文通過引入流式深度強化學習方法 ——Stream TD (λ)、Stream Q (λ) 和 Stream AC (λ),這些統稱為 stream-x 算法,并利用資格跡,來解決流式障礙問題。

該方法無需使用重放緩沖區、批量更新或目標網絡,即可從最新的經驗中進行學習。與普遍認知相反,本文證明了流式深度強化學習可以是穩定的,并且在樣本效率上可與批量強化學習相當。

由于流式學習方法在使用樣本后必須將其丟棄,因此可能會導致樣本效率低下。為此,本文提出了兩種技術來提高流式學習方法的樣本效率:1)稀疏初始化,2)資格跡。

算法 1 展示了本文提出的稀疏初始化技術 — SparseInit。此稀疏初始化方案可用于全連接層和卷積層。



算法 3 展示了如何構建一個優化器,該優化器使用有效步長這一條件來控制更新大小。



下面為 stream-x 算法偽代碼。為了提高算法可讀性,作者使用了以下顏色編碼:紫色表示層歸一化,藍色表示觀測規一化,橙色表示獎勵縮放,青色表示步長縮放,棕色表示稀疏初始化。





實驗結果

為了演示 Stream-x 算法的有效性,該研究首先展示了在不同環境中經典方法失敗的流式障礙,而 Stream-x 算法克服了這一障礙,并且與其他批處理方法性能相當。

克服流式障礙

流式深度強化學習方法經常會遇到不穩定和學習失敗的情況,稱為流式障礙。圖 2 顯示了三個不同的具有挑戰性的基準測試任務中的流障礙:MuJoCo、DM Control 和 Atari。



Stream-x 算法的樣本效率

該研究通過比較不同算法的學習曲線來研究 stream-x 方法的樣本效率。圖 3 顯示了不同深度 RL 方法在四個連續控制 MuJoCo 任務上的性能。



圖 4 展示了流 Q (0.8) 與其對應經典方法以及 DQN1 和 DQN 在 MinAtar 任務上的性能。



Stream-x 算法在擴展運行中的穩定性

接下來,研究團隊探究了 Stream-x 算法在長時間運行時的穩定性,以有效地揭示方法是否可以長時間運行而不出現任何問題。實驗結果如下圖 5 所示:



圖 6 顯示了不同智能體在總共經歷 2 億幀的 Atari 游戲上的性能:



感興趣的讀者可以閱讀論文原文,了解更多研究內容。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
警報!特朗普釋放出退出北約信號 ,外媒:大概率是準備對華開火

警報!特朗普釋放出退出北約信號 ,外媒:大概率是準備對華開火

小lu侃侃而談
2025-04-13 22:55:31
乒乓世界杯:16人被淘汰,日本3場轟12-0,王楚欽救局點小組第二

乒乓世界杯:16人被淘汰,日本3場轟12-0,王楚欽救局點小組第二

知軒體育
2025-04-15 18:13:21
香港演員林正峰為省錢跑深圳拔牙!香港一顆智齒要8000塊,太貴了

香港演員林正峰為省錢跑深圳拔牙!香港一顆智齒要8000塊,太貴了

趣文說娛
2025-04-15 09:52:10
43歲姚笛和朋友吃火鍋,兩個人只點5份菜 含淚自曝生活艱難很焦慮

43歲姚笛和朋友吃火鍋,兩個人只點5份菜 含淚自曝生活艱難很焦慮

西瓜愛娛娛
2025-04-15 14:14:38
別被金價嚇退!專家警告:更大的風暴在后面

別被金價嚇退!專家警告:更大的風暴在后面

侃侃娛季
2025-04-15 14:22:06
3-1,中超第15掀翻中超前冠軍,終結4連敗,50歲謝暉率隊鎩羽而歸

3-1,中超第15掀翻中超前冠軍,終結4連敗,50歲謝暉率隊鎩羽而歸

側身凌空斬
2025-04-15 21:55:47
美前財長耶倫:不相信中國會拋售美債,美國完了中國也別想好過

美前財長耶倫:不相信中國會拋售美債,美國完了中國也別想好過

叮當當科技
2025-04-15 17:21:31
林書豪15中0+三分9中0:創加盟最差紀錄 難阻19分慘敗終結8連勝

林書豪15中0+三分9中0:創加盟最差紀錄 難阻19分慘敗終結8連勝

醉臥浮生
2025-04-13 20:25:57
美軍6航母壓境,解放軍硬核劃禁區!中美真要開戰?

美軍6航母壓境,解放軍硬核劃禁區!中美真要開戰?

起喜電影
2025-04-12 09:52:51
人民幣匯率在美元大幅貶值的情況下,絲毫沒有拉升。

人民幣匯率在美元大幅貶值的情況下,絲毫沒有拉升。

維納斯的眼淚
2025-04-15 18:55:49
余華:指責型的父母,一定會養一個憤怒自卑的孩子

余華:指責型的父母,一定會養一個憤怒自卑的孩子

清風拂心
2025-04-07 15:15:05
特朗普,最新發聲!美股股指期貨,集體跳水!

特朗普,最新發聲!美股股指期貨,集體跳水!

證券時報e公司
2025-04-15 21:38:31
媒體人:有多名亞洲籍裁判抵達中國,最快今晚開始啟動外籍裁判

媒體人:有多名亞洲籍裁判抵達中國,最快今晚開始啟動外籍裁判

狼叔評論
2025-04-15 10:53:09
特朗普又酸中方訪問越南了,兩個順差大國擁抱在一起,夠他難受!

特朗普又酸中方訪問越南了,兩個順差大國擁抱在一起,夠他難受!

大道無形我有型
2025-04-15 10:33:45
秀瑜伽高難度動作?網友:秀身材就秀身材咯

秀瑜伽高難度動作?網友:秀身材就秀身材咯

說真話的小陳
2025-04-15 10:51:32
央行突擊降準的牛市!4月15日,今日凌晨的三大重要消息全面來襲

央行突擊降準的牛市!4月15日,今日凌晨的三大重要消息全面來襲

風口招財豬
2025-04-15 00:48:28
德國將向烏克蘭提供金牛座導彈!俄烏繞開美國在土耳其談判

德國將向烏克蘭提供金牛座導彈!俄烏繞開美國在土耳其談判

項鵬飛
2025-04-14 22:17:14
張玉寧轟賽季首球!破354天球荒,法比奧19分鐘傳射

張玉寧轟賽季首球!破354天球荒,法比奧19分鐘傳射

奧拜爾
2025-04-15 20:07:06
國足換帥?前皇馬名帥親口表態:我會在中國執教

國足換帥?前皇馬名帥親口表態:我會在中國執教

足球觀察1
2025-04-15 15:33:17
夏寶龍:關鍵時刻出賣國家利益、替敵人搖旗吶喊,絕不會有什么好下場

夏寶龍:關鍵時刻出賣國家利益、替敵人搖旗吶喊,絕不會有什么好下場

政知新媒體
2025-04-15 11:16:38
2025-04-15 22:15:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10363文章數 142295關注度
往期回顧 全部

科技要聞

對等關稅下顯卡被爆炒:黃牛背刺游戲玩家

頭條要聞

中國向巴西采購至少240萬噸大豆 美大豆協會主席慌了

頭條要聞

中國向巴西采購至少240萬噸大豆 美大豆協會主席慌了

體育要聞

父母是臺灣移民!女林書豪被WNBA球隊選中

娛樂要聞

娛樂圈模范夫妻塌房?私生活曝光!

財經要聞

李強:以更大力度促進消費擴大內需

汽車要聞

轉型中的"穩健派" 一汽-大眾的智能化突圍路徑

態度原創

手機
親子
教育
時尚
軍事航空

手機要聞

Find X8 Ultra開售在即 手機+孫穎莎同款表這樣買更劃算

親子要聞

爺爺奶奶都是中國人,卻生出金發碧眼的洋娃娃

教育要聞

成都這些學校,教室要安空調了!部分區縣將實現“全覆蓋”

愿每朵向陽的花不被踐踏

軍事要聞

烏遭俄導彈襲擊 澤連斯基喊話特朗普訪烏

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 青铜峡市| 鹰潭市| 布尔津县| 明星| 武汉市| 虎林市| 故城县| 宁德市| 乌兰浩特市| 本溪| 惠来县| 略阳县| 银川市| 伊川县| 定边县| 遂川县| 吉林省| 金川县| 泸水县| 哈密市| 华安县| 荔波县| 沛县| 利辛县| 五华县| 射洪县| 伊宁市| 安陆市| 休宁县| 漳浦县| 扎囊县| 临朐县| 广平县| 叶城县| 海淀区| 徐州市| 象州县| 庆安县| 泸州市| 兴隆县| 焦作市|