99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Nature:OpenAI的Deep Research對科學家有多大用處?

0
分享至


繼谷歌去年 12 月發布 Gemini Deep Research 之后,ChatGPT 母公司 OpenAI 于日前推出了一款類似產品——“Deep Research”,該產品能夠綜合數百個網站的信息進而生成長達數頁的引文報告,充當個人智能助手,在短短幾十分鐘內完成相當于數小時的工作。

許多試用過它的科學家都對它撰寫文獻綜述或綜述論文全文,甚至找出知識空白的能力印象深刻。不過,也有一些人的反饋并不那么積極。在一段在線視頻評論中,來自莫菲特菲爾德灣區環境研究所的數據科學家 Kyle Kabasares 就評價道:“如果是人類寫的,我會覺得,這還需要大量的改進”。

OpenAI 和谷歌將此類產品的推出視為邁向能夠處理復雜任務的 AI 智能體的一步。觀察人士也指出,Deep Research 之所以引人注目,是因為它將 o3 大語言模型(LLM)的改進推理能力與互聯網搜索能力結合在了一起相比之下,谷歌的 Gemini Deep Research 目前基于 Gemini 1.5 Pro,而非其領先的推理模型 2.0 Flash Thinking。

綜述撰寫

對于 OpenAI 和谷歌的這兩款產品,許多用戶都表示印象深刻。來自初創公司 FutureHouse 的化學家兼人工智能專家 Andrew White 認為,谷歌的產品“真正發揮了谷歌在搜索和計算方面的優勢”,能讓用戶快速了解某個主題,而 o3 的推理技能則為OpenAI 的產品所撰寫的報告增添了精確性和復雜性,拓展了深度

來自杰克遜實驗室的免疫學家 Derya Unutmaz 表示,他曾通過 OpenAI 提供的 ChatGPT Pro 免費訪問權限進行醫學研究。他認為 OpenAI 的 Deep Research 所撰寫的報告“非常令人印象深刻”并且“值得信賴”,“與已發表的綜述論文不相上下,甚至更好”。他評價道:“我認為(人工)撰寫綜述正在變得過時”。

White 預計,此類 AI 產品未來可以用于更新人類撰寫的綜述。畢竟,“每 6 個月都由人工更新一次權威綜述不太可行”。

誠然,有不少人警示到,所有基于 LLM 的產品仍然存在不準確或有誤導性的問題。OpenAI 也在其官網指出,其產品“仍處于早期階段,存在局限性”——它可能會弄錯引文、混淆事實、無法區分權威信息和謠言,也無法準確表達其不確定性。OpenAI 預計,這些問題會隨著使用量增加和時間推移而改善。谷歌為 Gemini Deep Research 出具的免責聲明中也寫道:“Gemini 可能會出錯,請務必仔細檢查”。

馬克斯·普朗克光科學研究所人工科學家實驗室負責人 Mario Krenn 指出,這些 AI 產品并不是在進行科學家通常意義上的“研究”。他表示,科學家們會花費數年時間深入研究單一主題,并逐步發展新的思想。“這種能力目前尚未在 AI 上得到驗證”。Krenn 補充道:“也許很快就會實現,誰也無法預料這些天會發生什么”。

測試結果

OpenAI 對其產品進行了一系列測試。例如,在人類的最后考試(Humanity's Last Exam,HLE)中, Deep Research 表現出色。HLE 是一項 3000 道題的基準測試,涵蓋了從語言學到科學等各個學科的專家級知識,其設計難度遠高于現在人工智能所能勝任的其他常見測試(如 GPQA)。該測試涵蓋了從語言學到科學等各個領域的專家級知識。在測試中,Deep Research 在 HLE 的純文本問題上以 26.6% 的成績名列第一

OpenAI 還針對 GAIA 基準進行了測試。GAIA 基準于 2023 年開發,用于測試能夠進行多步推理和網頁瀏覽來回答問題的人工智能。在公開的 GAIA 排行榜上,跨國公司 H2O.ai 的智能體位居榜首,該智能體由 Anthropic 的 Claude 3.5 Sonnet 提供支持,并在最高難度級別上得分 40.82%。而 OpenAI 的 Deep Research 得分為 58.03%。

相較于 OpenAI 的測試結果,谷歌則表示,該公司目前沒有可分享的基準測試結果。然而,White 指出,OpenAI 選擇的基準測試僅針對答案簡短、可驗證的問題,可能并不適用于測試生成長篇且沒有固定回答的問題。“我認為這些基準測試最終會被功能性基準取代,”他說,例如通過人工評估文章的質量和實用性。White 之前曾參與一項研究,其中人類專家對 AI 生成和人類撰寫的維基百科風格科學主題摘要進行了盲評,結果 AI 獲勝。

這兩款產品都有一些局限性。它們都無法提取付費信息其中包括許多科學論文。這“是一個非常、非常重大的問題,”支持開放科學的 Unutmaz 表示,“獲取這些知識比以往任何時候都更加重要”。一些科學家在線論壇上提出,他們應該能夠將自己的期刊密碼輸入 AI 工具,并推測可以利用 OpenAI 的新“operator”智能體來實現這一點。對此,OpenAI CEO Sam Altman 也在推特上回應道:“我們確實需要找到一個解決方案“。

翻譯:陳小宇

原文作者:Nicola Jones(自由科學記者、作家和編輯)

https://www.nature.com/articles/d41586-025-00377-9

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1-0到1-3!丁俊暉3局0分,斯佳輝被罰7分,或首敗塞爾比終結者?

1-0到1-3!丁俊暉3局0分,斯佳輝被罰7分,或首敗塞爾比終結者?

劉姚堯的文字城堡
2025-04-27 03:27:14
特朗普上臺將滿100天,金融市場給“差評”!電商平臺集體漲價,機構稱“破產咨詢激增”!關稅暴漲44倍,企業主起訴政府

特朗普上臺將滿100天,金融市場給“差評”!電商平臺集體漲價,機構稱“破產咨詢激增”!關稅暴漲44倍,企業主起訴政府

每日經濟新聞
2025-04-27 00:05:07
特朗普示弱,“窮寇” 真能不追?七年前的巴掌猶在臉畔!

特朗普示弱,“窮寇” 真能不追?七年前的巴掌猶在臉畔!

貓眼觀史
2025-04-26 01:07:13
今夏流行“不穿褲子”!洋氣顯瘦顯腿長,誰穿誰好看!

今夏流行“不穿褲子”!洋氣顯瘦顯腿長,誰穿誰好看!

Yuki女人故事
2025-04-25 22:30:18
0-7慘敗!韓媒怒斥:亞冠已徹底喪失公平,冠軍就是為沙特定做的

0-7慘敗!韓媒怒斥:亞冠已徹底喪失公平,冠軍就是為沙特定做的

直播吧
2025-04-26 16:57:12
南京淪陷后,日軍舉行慶祝活動,高級軍官鞠躬時腦袋被砍

南京淪陷后,日軍舉行慶祝活動,高級軍官鞠躬時腦袋被砍

阿七說史
2025-04-25 23:52:40
劉爽下場開撕董明珠:若不收回成命,劉氏與赫舍里家族將抵制格力

劉爽下場開撕董明珠:若不收回成命,劉氏與赫舍里家族將抵制格力

剛哥說法365
2025-04-26 21:04:23
美國拒發簽證,中國代表無法入境,耿爽發聲,聯合國搬遷勢在必行

美國拒發簽證,中國代表無法入境,耿爽發聲,聯合國搬遷勢在必行

說天說地說實事
2025-04-27 02:53:11
廣廈主場19分大勝遼籃,全隊卻不開心!遼籃輸球只因一人不在狀態

廣廈主場19分大勝遼籃,全隊卻不開心!遼籃輸球只因一人不在狀態

生活新鮮市
2025-04-27 00:49:13
特朗普還是贏了?美聯儲連夜“投降”,半小時內美國股市全面大漲

特朗普還是贏了?美聯儲連夜“投降”,半小時內美國股市全面大漲

肆時說
2025-04-26 19:03:47
搬磚9年攢200萬元蓋了別墅!90后男子說自己很后悔

搬磚9年攢200萬元蓋了別墅!90后男子說自己很后悔

新民周刊
2025-04-26 18:07:26
回不來了!臺積電張忠謀正式表態,國內院士:放棄一切幻想

回不來了!臺積電張忠謀正式表態,國內院士:放棄一切幻想

Thurman在昆明
2025-04-27 00:49:43
張柏芝淪為笑話?就算謝霆鋒向王菲示愛100次,她也是“大贏家”

張柏芝淪為笑話?就算謝霆鋒向王菲示愛100次,她也是“大贏家”

春序娛樂
2025-04-26 20:17:52
笑噴!廣西人工降雨結果打到廣東,廣東網友: 表,別打了都快淹了

笑噴!廣西人工降雨結果打到廣東,廣東網友: 表,別打了都快淹了

有趣的火烈鳥
2025-04-26 17:26:07
海關總署:4月22日起,允許符合相關要求的阿根廷牛黃進口

海關總署:4月22日起,允許符合相關要求的阿根廷牛黃進口

每日經濟新聞
2025-04-26 21:57:06
歐洲裁判不慣著楊鳴!繼偉夢回國際賽場,廣廈造19分慘案1-0遼寧

歐洲裁判不慣著楊鳴!繼偉夢回國際賽場,廣廈造19分慘案1-0遼寧

后仰大風車
2025-04-26 21:52:11
澤連斯基“讓步”了

澤連斯基“讓步”了

環球時報新聞
2025-04-26 17:01:11
曝中日友好醫院外科醫生出軌:護士長兩次懷孕,與小三曖昧照流出

曝中日友好醫院外科醫生出軌:護士長兩次懷孕,與小三曖昧照流出

博士觀察
2025-04-26 08:57:28
2011年,她全裸接受記者采訪,并稱:我敢看你們,你們敢看我嗎?

2011年,她全裸接受記者采訪,并稱:我敢看你們,你們敢看我嗎?

芳芳歷史燴
2025-04-24 15:23:20
沒人結婚,成都崇州最豪華的喜宴中心倒閉了,才開業一年多

沒人結婚,成都崇州最豪華的喜宴中心倒閉了,才開業一年多

小人物看盡人間百態
2025-04-26 20:42:11
2025-04-27 05:20:49
學術頭條
學術頭條
致力于學術傳播和科學普及,重點關注人工智能、生命科學等前沿科學進展。
1247文章數 5069關注度
往期回顧 全部

科技要聞

百度心響實測:“能用版Manus”開了個好頭

頭條要聞

特朗普將舉行集會慶祝執政100天 美媒:時機不妙

頭條要聞

特朗普將舉行集會慶祝執政100天 美媒:時機不妙

體育要聞

廣廈19分勝遼寧獲開門紅 孫銘徽13分3助崴腳

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

教育
家居
旅游
藝術
公開課

教育要聞

你說說看,你做做這樣也可以嗎?

家居要聞

清徐現代 有溫度有態度

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 克山县| 佳木斯市| 天柱县| 虹口区| 阳西县| 寻甸| 寿光市| 泸西县| 舟曲县| 林周县| 蒙阴县| 永福县| 平武县| 仪陇县| 兴仁县| 广河县| 三原县| 牟定县| 渝中区| 富民县| 华宁县| 重庆市| 长泰县| 昆山市| 焦作市| 兰考县| 泰和县| 敖汉旗| 大竹县| 梧州市| 达拉特旗| 大同市| 子洲县| 开平市| 章丘市| 唐山市| 东光县| 阿巴嘎旗| 红桥区| 宁强县| 盘锦市|