99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

真正Deep的Research,通過強化學習實現可自主進化科研智能體來了

0
分享至




CycleResearcher 研究團隊成員包括:張岳教授,西湖大學人工智能系教授,工學院副院長,其指導的博士生朱敏郡、張鴻博、鮑光勝、訪問學生翁詣軒;UCL 訪問研究員楊林易博士,25 Fall 入職南方科技大學擬任獨立 PI,博士生導師,研究員。

AI 技術不斷進步,科研自動化浪潮正在深刻改變學術世界!近日,來自西湖大學、UCL 等機構的研究團隊在自動化科研方向發布了一項突破性的成果:CycleResearcher 。 CycleResearcher 首次實現了可訓練的科研流程的全鏈路端到端訓練,覆蓋智能文獻檢索、模型主動提問、強化學習迭代優化論文創新點、方法論架構設計、實驗設計到論文自動生成的完整閉環。

值得一提的是,同類功能在 OpenAI 商業化方案中需支付高達 2 萬美元 / 月的服務費用,而團隊開源了所有代碼、數據、和 Demo:



  • 論文鏈接:https://openreview.net/forum?id=bjcsVLoHYs
  • 網頁鏈接:https://ai-researcher.net/
  • 代碼鏈接:https://github.com/zhu-minjun/Researcher

牛津大學教授 Will MacAskill 最新預言未來 AI 的增長率足以在不到 10 年的時間里,推動相當于 100 年的技術進步。如何讓 AI 實現「遞歸自我改進」成為了解決這個問題的關鍵!然而,現有的一系列工作包括 SakanaAI 公司于去年 8 月發布的 AI Scientist、香港大學最近發布的 AI-Researcher 都是基于調用 API 構建推理的框架去實現自動化科研,而無法被訓練優化。CycleResearcher(模型上傳于 24 年 8 月)是全球首個通過強化學習迭代優化訓練實現的 AI 科研智能體。



圖 1: AI Researcher 功能展示圖

CycleResearcher 首次實現了通過強化學習進行科研過程的自動迭代改進,它能夠模擬完整的科研流程,包括文獻綜述、研究構思、論文撰寫,以及模擬實驗結果。

研究團隊主要干了三件事情:

1)數據集: 發布了兩個大規模數據集 Review-5k 和 Research-14k,用于評估和訓練學術論文評審和生成模型。

2)CycleResearcher 模型: 可以生成質量接近人類撰寫預印本的論文(評分 5.36 分),實現 31.07% 的接受率。

3)CycleReviewer 模型: 一個做論文評審的模型,在平均絕對誤差 (MAE) 方面顯示出令人鼓舞的結果,與人類評審員相比,平均絕對誤差(MAE)降低了 26.89%。

利用商業大型語言模型(LLMs)作為研究助理或想法生成器已經取得了顯著進展,但在多達上萬次模擬同行評議中通過反饋而自我進化的自動科研大模型從未實現過。這項研究的提出旨在解決了這個領域難題。



圖 2: CycleResearcher 訓練框架圖

創新點詳細解讀:

1. 高質量數據集與模型規模化:為訓練 CycleResearcher,研究團隊專門構建了包含近 1.5 萬篇高質量學術論文的數據集(Research-14K),數據來源覆蓋了 ICLR、NeurIPS、ICML、ACL、EMNLP、CVPR 和 ICCV 等頂級會議。提供了多個不同規模的模型(12B、72B、123B),滿足不同科研需求。

2. 強化學習與迭代反饋機制:如圖二所示,CycleResearcher 的核心技術,在于其采用迭代式偏好優化(Iterative SimPO)的訓練框架,這一方法使得在線強化學習(Online RLHF)成為了可能。這個框架包含兩個關鍵模型:策略模型 (CycleResearcger) 和獎勵模型 (DeepReveiwer)。

3. 指令微調(SFT)熱身階段:策略模型 CycleResearcher 負責生成論文的各個部分,它首先會進行廣泛的文獻綜述,從輸入的 bib 文件中獲取所有參考文獻及其摘要,全面了解研究背景。然后,它會交替生成論文的大綱和正文,確保邏輯流暢。具體來說,它會先生成動機和大綱中的主要思想,然后生成標題、摘要、引言和方法部分。接下來,概述實驗設置和結果,隨后生成實驗設計和模擬結果(注意,這里的實驗結果是模擬的)。最后,它會分析實驗結果并形成結論。整個過程就像一位經驗豐富的科研人員在撰寫論文一樣,有條不紊,邏輯清晰。獎勵模型 CycleReviewer 則負責模擬同行評議,對生成的論文進行評估和反饋。它會從多個維度對論文進行打分,并給出具體的評審意見。

4. 迭代反饋訓練階段:研究人員首先通過拒絕采樣獲取樣本,通過 CycleReviewer 的打分構成偏好對,兩個模型相互配合,通過強化學習的方式不斷優化,CycleResearcher 根據 CycleReviewer 的反饋不斷改進自身的論文生成策略,CycleReviewer 則根據 CycleResearcher 生成的論文不斷提高自身的評審能力。兩個模型交互反饋,不斷優化策略。在 Iterative SimPO 算法中,SimPO 算法雖然可以幫助 AI 區分 “好” 論文和 “壞” 論文,但它不能保證 AI 生成的文本是流暢的。因此,我們將 SimPO 損失和 NLL 損失結合起來,讓 AI 模型既能寫出高質量的論文,又能保證文本的流暢性。

5. 實驗結果:CycleResearcher 生成論文的模擬評審平均得分達到 5.36 分,超過目前 AI Scientist 的 4.31 分,且十分接近人類真實預印本的平均水平(5.24 分)。同時,CycleResearcher 論文的接受率達到了 35.13%,遠高于 AI Scientist 的 0%。

總結

1: 這篇工作首次提出了一個用于自動化整個研究生命周期的迭代強化學習框架 通過集成 CycleResearcher(策略模型)和 CycleReviewer(獎勵模型),該框架能夠模擬真實世界的研究 - 評論 - 改進的迭代循環。

2: 團隊發布了兩個大規模數據集,用于學術論文生成和評論的評估與訓練 Review-5k 和 Research-14k 數據集專為捕捉機器學習中同行評審和研究論文生成的復雜性而設計,為評估和訓練學術論文生成和評審模型提供了寶貴的資源。

3: CycleResearcher 在研究構思和實驗設計方面表現出一致的性能,可以達到人類撰寫預印本的論文質量,接近會議接受論文的質量。 這表明 LLM 可以在科學研究和同行評審過程中做出有意義的貢獻。

我們堅信科研工具應當開放共享,因此提供了完整的開源資源套件:

pip install ai_researcher

開源套件包含:

1. 不同規模模型:所有模型均支持本地部署

  • CycleResearcher:提供 12B、72B 和 123B 三種規模
  • CycleReviewer:提供 8B、70B 和 123B 三種規模
  • DeepReviewer:提供 7B 和 14B 兩種規模

2. 大規模訓練數據集:

  • Review-5K:包含 4,989 篇論文的專業評審數據
  • Research-14K:包含 14,911 篇高質量論文的結構化數據
  • DeepReview-13K:包含 13,378 篇論文的多維度深度評審數據

3. 詳盡教程:

  • CycleResearcher 教程:https://github.com/zhu-minjun/Researcher/blob/main/Tutorial/tutorial_1.ipynb
  • CycleReviewer 教程:https://github.com/zhu-minjun/Researcher/blob/main/Tutorial/tutorial_2.ipynb
  • DeepReviewer 教程:https://github.com/zhu-minjun/Researcher/blob/main/Tutorial/tutorial_3.ipynb

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
遙控指揮!山西教練組驚現神秘紙條,若查實恐遭聯盟重罰

遙控指揮!山西教練組驚現神秘紙條,若查實恐遭聯盟重罰

十點體壇
2025-04-17 23:30:03
曼聯7-6逆轉里昂!時隔4年重返歐聯杯4強 馬奎爾加時絕殺 B費點射

曼聯7-6逆轉里昂!時隔4年重返歐聯杯4強 馬奎爾加時絕殺 B費點射

侃球熊弟
2025-04-18 04:33:40
三件大事,步步驚心,開始明搶了

三件大事,步步驚心,開始明搶了

大貓財經Pro
2025-04-17 16:46:09
杭州馬路邊的一棵樹,突然走紅

杭州馬路邊的一棵樹,突然走紅

FM93浙江交通之聲
2025-04-18 06:40:52
33歲楊采鈺挺孕肚現身日本,新男友貼心攙扶,與陳金飛形同陌路

33歲楊采鈺挺孕肚現身日本,新男友貼心攙扶,與陳金飛形同陌路

一路朝南
2025-04-18 00:05:45
黃仁勛時隔3個月再次到訪北京

黃仁勛時隔3個月再次到訪北京

財聯社
2025-04-17 15:03:07
廣東33歲殉情男子后續:岳母發聲講女兒遭遇,女婿也是一個可憐人

廣東33歲殉情男子后續:岳母發聲講女兒遭遇,女婿也是一個可憐人

江山揮筆
2025-04-17 15:38:05
恒安集團創始人許連捷逝世,享年73歲

恒安集團創始人許連捷逝世,享年73歲

澎湃新聞
2025-04-18 00:34:27
南京一農文旅項目投1700萬后遭堵門,當地先招商后翻臉?南京浦口區發布情況通報

南京一農文旅項目投1700萬后遭堵門,當地先招商后翻臉?南京浦口區發布情況通報

大風新聞
2025-04-17 18:20:02
突然發現全國人民都不敢接電話了!

突然發現全國人民都不敢接電話了!

振華觀史
2025-04-15 13:29:07
景德鎮突發刑案1人死亡,知情人曝內幕,現場很慘,死者很有錢

景德鎮突發刑案1人死亡,知情人曝內幕,現場很慘,死者很有錢

春序娛樂
2025-04-17 12:46:07
中國足球丟人的事,全球都知道了!外援墜亡,為何遮遮掩掩?

中國足球丟人的事,全球都知道了!外援墜亡,為何遮遮掩掩?

大風文字
2025-04-17 07:29:55
景德鎮發生一起命案,起因是女老板對員工工傷堅決不賠

景德鎮發生一起命案,起因是女老板對員工工傷堅決不賠

歷史總在押韻
2025-04-17 23:29:52
荒誕!白宮發言人被曝身上全是中國貨,美國百姓已開始"人肉代購"

荒誕!白宮發言人被曝身上全是中國貨,美國百姓已開始"人肉代購"

派大星紀錄片
2025-04-17 15:42:59
2-4被翻盤!韓國提前回家,球員現場痛哭,中國隊亞洲杯出局不冤

2-4被翻盤!韓國提前回家,球員現場痛哭,中國隊亞洲杯出局不冤

侃球熊弟
2025-04-18 00:25:20
這5件轟動全網的案件,恐怕讓中國男人斷了戀愛、結婚、生子的念想

這5件轟動全網的案件,恐怕讓中國男人斷了戀愛、結婚、生子的念想

小蘿卜絲
2025-04-17 13:59:28
4張重磅罰單!山西遭遇頂格重罰,再犯將失去主場,廣東3人被處罰

4張重磅罰單!山西遭遇頂格重罰,再犯將失去主場,廣東3人被處罰

墨羽怪談
2025-04-18 00:49:28
廉江滅門慘案,兇手和死者被曝有多層關系!糾紛背后果然有情況

廉江滅門慘案,兇手和死者被曝有多層關系!糾紛背后果然有情況

美美談情感
2025-04-17 21:23:48
太突然!紡織大佬畢光鈞跳樓身亡,僅56歲,死因曝光,兒子自閉癥

太突然!紡織大佬畢光鈞跳樓身亡,僅56歲,死因曝光,兒子自閉癥

阿鳧愛吐槽
2025-04-17 10:03:17
景德鎮警方通報一起刑事案件:邵某某當場死亡,系因工作原因引發

景德鎮警方通報一起刑事案件:邵某某當場死亡,系因工作原因引發

新京報政事兒
2025-04-17 13:09:05
2025-04-18 08:47:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10373文章數 142295關注度
往期回顧 全部

科技要聞

特朗普再出招 限制芯片能鎖住中國AI騰飛?

頭條要聞

美烏礦產協議取得重大進展 特朗普、澤連斯基發聲

頭條要聞

美烏礦產協議取得重大進展 特朗普、澤連斯基發聲

體育要聞

結束16年等待,一支強硬的阿森納向我們走來

娛樂要聞

張檬順利產子,韓國婆婆趕赴香港陪產

財經要聞

小心 ,全球衰退不遠了

汽車要聞

一躍跳過障礙/秒切防御姿態 看懂嵐圖"開掛"絕技

態度原創

房產
數碼
藝術
健康
軍事航空

房產要聞

最后一波!15萬起上車海口超級大盤,還是準現房!

數碼要聞

制造商 Woojer 推出 Haptic Vest 3 震動背心外設

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎?

軍事要聞

朝鮮譴責美國派遣戰略轟炸機至朝鮮半島

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 郁南县| 保靖县| 淮阳县| 信阳市| 濉溪县| 博爱县| 汉沽区| 六枝特区| 方城县| 自治县| 磴口县| 怀宁县| 乌拉特前旗| 麦盖提县| 基隆市| 玉龙| 新乐市| 新安县| 沈丘县| 闽清县| 北安市| 宁国市| 上虞市| 元谋县| 甘洛县| 金华市| 塔城市| 盈江县| 无棣县| 噶尔县| 云梦县| 永泰县| 凤山市| 丹凤县| 九寨沟县| 布尔津县| 海晏县| 绵阳市| 浦城县| 长白| 什邡市|