99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MIT開發(fā)高效算法大幅降低強化學(xué)習(xí)訓(xùn)練成本

0
分享至


(來源:MIT News)

從機器人到醫(yī)學(xué)到政治學(xué),各領(lǐng)域都在嘗試訓(xùn)練 AI 系統(tǒng)做出有意義的決策。

例如,利用 AI 系統(tǒng)智能控制擁堵城市的交通,不僅可以幫助駕駛員更快到達(dá)目的地,還能提升安全性或可持續(xù)性。然而,教 AI 系統(tǒng)做出良好決策絕非易事。

支撐這些 AI 決策系統(tǒng)的強化學(xué)習(xí)模型在面對任務(wù)中的細(xì)微變化時,往往仍然會失敗。以交通為例,當(dāng)模型面對具有不同車速限制、車道數(shù)量或交通模式的路口時,可能難以有效控制。

為提升強化學(xué)習(xí)模型在具有多樣性的復(fù)雜任務(wù)中的可靠性,MIT 研究人員引入了一種更高效的訓(xùn)練算法。

該算法通過戰(zhàn)略性選擇最佳訓(xùn)練任務(wù),使 AI 智能體能夠高效完成一組相關(guān)任務(wù)集合中的所有任務(wù)。以交通信號控制為例,每個任務(wù)可以視為一個路口,而任務(wù)空間則包含整個城市中的所有路口。

通過專注于對算法整體效果貢獻最大的少數(shù)路口,該方法在提高性能的同時,顯著降低了訓(xùn)練成本。

研究人員發(fā)現(xiàn),在一系列模擬任務(wù)中,該技術(shù)比標(biāo)準(zhǔn)方法高效 5 到 50 倍。這種效率提升使算法能夠更快地學(xué)習(xí)到更優(yōu)的解決方案,最終改善 AI 智能體的表現(xiàn)。

“通過一種非常簡單的算法,我們看到了驚人的性能提升。這種不復(fù)雜的算法更容易被社區(qū)接受,因為它的實現(xiàn)和理解都更簡單,”論文資深作者、MIT 土木與環(huán)境工程系(CEE)和數(shù)據(jù)系統(tǒng)與社會研究所(IDSS)Thomas D. and Virginia W. Cabot 職業(yè)發(fā)展副教授、信息與決策系統(tǒng)實驗室(LIDS)成員 Cathy Wu 說。

該論文的主要作者是 CEE 研究生 Jung-Hoon Cho,參與作者包括電氣工程與計算機科學(xué)系(EECS)研究生 Vindula Jayawardana,以及 IDSS 研究生 Sirui Li。此研究將在神經(jīng)信息處理系統(tǒng)會議NeurIPS上發(fā)表。



尋找折中之道

在為城市多個路口的交通信號燈設(shè)計控制算法時,工程師通常會在兩種主要方法中進行選擇:要么為每個路口單獨訓(xùn)練一個算法,僅使用該路口的數(shù)據(jù);要么使用所有路口的數(shù)據(jù)訓(xùn)練一個更大的算法,然后將其應(yīng)用于每個路口。

然而,這兩種方法各有缺陷。為每個任務(wù)(如一個特定路口)單獨訓(xùn)練算法需要耗費大量時間、數(shù)據(jù)和計算資源;而為所有任務(wù)訓(xùn)練一個通用算法往往會導(dǎo)致表現(xiàn)不佳。

Cathy Wu 及其合作者試圖在這兩種方法之間找到平衡點。

在他們的方法中,研究團隊選擇了一部分任務(wù),為每個任務(wù)獨立訓(xùn)練一個算法。關(guān)鍵在于,他們會策略性地選擇最有可能提升整體任務(wù)表現(xiàn)的單個任務(wù)。

他們借助強化學(xué)習(xí)領(lǐng)域的一個常用技巧——零樣本遷移學(xué)習(xí)(zero-shot transfer learning)。這種方法將已訓(xùn)練好的模型直接應(yīng)用于一個新的任務(wù),而無需進一步訓(xùn)練。通過遷移學(xué)習(xí),模型往往在新任務(wù)上表現(xiàn)出色,尤其是與原任務(wù)相似的鄰近任務(wù)。

“我們知道理想情況下應(yīng)該對所有任務(wù)進行訓(xùn)練,但我們好奇是否可以僅對一部分任務(wù)進行訓(xùn)練,并將結(jié)果應(yīng)用于所有任務(wù),同時仍能看到性能的提升。”Wu 說道。

為確定哪些任務(wù)最值得選擇以最大化整體表現(xiàn),研究人員開發(fā)了一種名為基于模型的遷移學(xué)習(xí)(Model-Based Transfer Learning, MBTL)的算法。

MBTL 算法由兩部分組成:首先,它會模擬每個算法在單個任務(wù)上的獨立訓(xùn)練表現(xiàn)。其次,它會模擬將每個算法遷移到其他任務(wù)時性能的下降情況,即所謂的泛化性能(generalization performance)。

通過明確建模泛化性能,MBTL 可以估算出對新任務(wù)進行訓(xùn)練的價值。

MBTL 按順序進行操作,優(yōu)先選擇帶來最高性能增益的任務(wù)進行訓(xùn)練,然后依次選擇能夠提供最大邊際性能提升的任務(wù)。

由于 MBTL 僅專注于最有潛力的任務(wù),這種方法可以顯著提高訓(xùn)練過程的效率。



降低訓(xùn)練成本

當(dāng)研究人員將這一技術(shù)應(yīng)用于模擬任務(wù)時,包括控制交通信號、管理實時速度建議以及執(zhí)行多個經(jīng)典控制任務(wù),該方法的效率比其他方法高出 5 到 50 倍。

這意味著,他們可以使用更少的數(shù)據(jù)量達(dá)到相同的解決方案。例如,在效率提高 50 倍的情況下,MBTL 算法只需針對 2 個任務(wù)進行訓(xùn)練,就能達(dá)到標(biāo)準(zhǔn)方法需要 100 個任務(wù)數(shù)據(jù)才能實現(xiàn)的同等性能。

“從兩種主要方法的角度來看,這意味著其他 98 個任務(wù)的數(shù)據(jù)并非必要,或者對所有 100 個任務(wù)進行訓(xùn)練會讓算法感到混淆,從而導(dǎo)致性能比我們的方法更差。”Wu 說。

使用 MBTL,即使只增加少量額外的訓(xùn)練時間,也可能顯著提高性能。

未來,研究人員計劃設(shè)計能夠擴展到更復(fù)雜問題的 MBTL 算法,例如高維任務(wù)空間。他們還希望將這一方法應(yīng)用于現(xiàn)實世界的問題,尤其是在下一代移動系統(tǒng)中。

該研究部分由美國國家科學(xué)基金會職業(yè)獎(National Science Foundation CAREER Award)、冠廷教育基金會博士獎學(xué)金計劃(Kwanjeong Educational Foundation PhD Scholarship Program)以及亞馬遜機器人博士獎學(xué)金(Amazon Robotics PhD Fellowship)資助。

https://news.mit.edu/2024/mit-researchers-develop-efficiency-training-more-reliable-ai-agents-1122

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
北京今晨的風(fēng)似乎不大?氣象專家最新回應(yīng)

北京今晨的風(fēng)似乎不大?氣象專家最新回應(yīng)

新京報
2025-04-12 10:40:08
中方出"王炸",對所有美國商品征125%關(guān)稅!對普通人生活有何影響

中方出"王炸",對所有美國商品征125%關(guān)稅!對普通人生活有何影響

二向箔
2025-04-11 20:14:18
已立案!人均3888元的上海餐廳,用大象糞便做甜品,還有腐臭味糊糊……

已立案!人均3888元的上海餐廳,用大象糞便做甜品,還有腐臭味糊糊……

環(huán)球網(wǎng)資訊
2025-04-11 14:51:20
硬剛之下,美國對華關(guān)稅升至145%!接下來雙方只剩三種選擇?

硬剛之下,美國對華關(guān)稅升至145%!接下來雙方只剩三種選擇?

翻開歷史和現(xiàn)實
2025-04-11 14:46:12
我們明明是社會主義國家,養(yǎng)老金為什么要分三六九等?

我們明明是社會主義國家,養(yǎng)老金為什么要分三六九等?

逍遙論經(jīng)
2025-04-12 04:48:28
實錘!湛江小米su7車禍致2人身亡:小米汽車再次起火,現(xiàn)場圖流出

實錘!湛江小米su7車禍致2人身亡:小米汽車再次起火,現(xiàn)場圖流出

娜烏和西卡
2025-04-11 21:59:49
中美航線大量貨輪貨機停航,大部分貨主以觀望為主暫停發(fā)貨

中美航線大量貨輪貨機停航,大部分貨主以觀望為主暫停發(fā)貨

風(fēng)向觀察
2025-04-12 09:38:09
“我是證人,不是犯人”!男子收到海南警方空白拘留證,多方回應(yīng)

“我是證人,不是犯人”!男子收到海南警方空白拘留證,多方回應(yīng)

奇思妙想草葉君
2025-04-11 23:12:48
蜜雪冰城招牌變“綠”了?記者探訪河北三河→

蜜雪冰城招牌變“綠”了?記者探訪河北三河→

大風(fēng)新聞
2025-04-11 22:15:14
拒絕復(fù)合,27歲女孩被前男友潑汽油燒傷毀容致殘!受害人發(fā)聲

拒絕復(fù)合,27歲女孩被前男友潑汽油燒傷毀容致殘!受害人發(fā)聲

環(huán)球網(wǎng)資訊
2025-04-12 07:40:14
上個月,我去了趟烏魯木齊回來后,我只想說:能不去就盡量不去!

上個月,我去了趟烏魯木齊回來后,我只想說:能不去就盡量不去!

訪史
2025-04-11 10:34:33
義烏老板娘霸氣喊話:美國客戶要就給,不要就換賽道!

義烏老板娘霸氣喊話:美國客戶要就給,不要就換賽道!

滄海一書客
2025-04-12 07:56:52
上海地鐵猥褻事件男子公司稱其已被開除,職位疑為前臺接待

上海地鐵猥褻事件男子公司稱其已被開除,職位疑為前臺接待

大象新聞
2025-04-12 09:22:01
升至125%后 為何中國不陪了?

升至125%后 為何中國不陪了?

看看新聞Knews
2025-04-12 00:55:13
美智庫:如果中國不再向美國出售任何東西,中國還能繼續(xù)繁榮嗎?

美智庫:如果中國不再向美國出售任何東西,中國還能繼續(xù)繁榮嗎?

小鬼頭體育
2025-04-12 01:19:14
瘋狂!白宮澄清稱對華關(guān)稅已飆至145%!受關(guān)稅等影響,國內(nèi)蝦價大漲,羅非魚暴跌……

瘋狂!白宮澄清稱對華關(guān)稅已飆至145%!受關(guān)稅等影響,國內(nèi)蝦價大漲,羅非魚暴跌……

農(nóng)財寶典水產(chǎn)版
2025-04-11 14:30:20
河北三河市這件事,已經(jīng)壓不住了

河北三河市這件事,已經(jīng)壓不住了

末名先生
2025-04-11 15:37:02
甲方逆天需求:LOGO里要放18只貓和二維碼!

甲方逆天需求:LOGO里要放18只貓和二維碼!

LOGO研究所
2025-03-29 10:08:52
內(nèi)循環(huán)是行不通的,閉關(guān)的下場很慘!

內(nèi)循環(huán)是行不通的,閉關(guān)的下場很慘!

九思堂開峻
2025-04-10 18:21:36
楊晉柏,有新職

楊晉柏,有新職

魯中晨報
2025-04-12 10:39:09
2025-04-12 10:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15048文章數(shù) 513534關(guān)注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

特朗普年度體檢完成 自稱感覺“狀態(tài)非常好”

頭條要聞

特朗普年度體檢完成 自稱感覺“狀態(tài)非常好”

體育要聞

球迷天天罵,但我們要進歐冠了

娛樂要聞

25歲女歌手突然離世,和大S死因相似

財經(jīng)要聞

造假累計數(shù)百億 揭秘東旭集團造假手法

汽車要聞

25款風(fēng)云A8/T9/T10齊上市 多款車型發(fā)布一口價

態(tài)度原創(chuàng)

手機
健康
數(shù)碼
教育
家居

手機要聞

榮耀 400 Pro 手機渲染圖曝光:2 億主攝,獨特三攝相機模塊

在中國,到底哪些人在吃“偉哥”?

數(shù)碼要聞

三星 Haean 智能眼鏡被曝延至 2026 年推出

教育要聞

高考賦分科目的最終分?jǐn)?shù)是怎樣計算出來的?

家居要聞

浪漫與優(yōu)雅 不被定義的現(xiàn)代法式

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 林口县| 榆中县| 昌黎县| 门源| 濮阳县| 绍兴市| 文登市| 小金县| 汉阴县| 阿鲁科尔沁旗| 浮山县| 太仓市| 莱阳市| 吉首市| 寻甸| 普洱| 弥渡县| 麻城市| 怀集县| 赤水市| 桂平市| 通城县| 祁门县| 巴彦淖尔市| 江源县| 滦南县| 布拖县| 巴林右旗| 沧源| 江北区| 泰安市| 额济纳旗| 皮山县| 合江县| 垦利县| 满洲里市| 武隆县| 青岛市| 尉犁县| 金川县| 旅游|