繼谷歌去年 12 月發布 Gemini Deep Research 之后,ChatGPT 母公司 OpenAI 于日前推出了一款類似產品——“Deep Research”,該產品能夠綜合數百個網站的信息進而生成長達數頁的引文報告,充當個人智能助手,在短短幾十分鐘內完成相當于數小時的工作。
許多試用過它的科學家都對它撰寫文獻綜述或綜述論文全文,甚至找出知識空白的能力印象深刻。不過,也有一些人的反饋并不那么積極。在一段在線視頻評論中,來自莫菲特菲爾德灣區環境研究所的數據科學家 Kyle Kabasares 就評價道:“如果是人類寫的,我會覺得,這還需要大量的改進”。
OpenAI 和谷歌將此類產品的推出視為邁向能夠處理復雜任務的 AI 智能體的一步。觀察人士也指出,Deep Research 之所以引人注目,是因為它將 o3 大語言模型(LLM)的改進推理能力與互聯網搜索能力結合在了一起。相比之下,谷歌的 Gemini Deep Research 目前基于 Gemini 1.5 Pro,而非其領先的推理模型 2.0 Flash Thinking。
綜述撰寫
對于 OpenAI 和谷歌的這兩款產品,許多用戶都表示印象深刻。來自初創公司 FutureHouse 的化學家兼人工智能專家 Andrew White 認為,谷歌的產品“真正發揮了谷歌在搜索和計算方面的優勢”,能讓用戶快速了解某個主題,而 o3 的推理技能則為OpenAI 的產品所撰寫的報告增添了精確性和復雜性,拓展了深度。
來自杰克遜實驗室的免疫學家 Derya Unutmaz 表示,他曾通過 OpenAI 提供的 ChatGPT Pro 免費訪問權限進行醫學研究。他認為 OpenAI 的 Deep Research 所撰寫的報告“非常令人印象深刻”并且“值得信賴”,“與已發表的綜述論文不相上下,甚至更好”。他評價道:“我認為(人工)撰寫綜述正在變得過時”。
White 預計,此類 AI 產品未來可以用于更新人類撰寫的綜述。畢竟,“每 6 個月都由人工更新一次權威綜述不太可行”。
誠然,有不少人警示到,所有基于 LLM 的產品仍然存在不準確或有誤導性的問題。OpenAI 也在其官網指出,其產品“仍處于早期階段,存在局限性”——它可能會弄錯引文、混淆事實、無法區分權威信息和謠言,也無法準確表達其不確定性。OpenAI 預計,這些問題會隨著使用量增加和時間推移而改善。谷歌為 Gemini Deep Research 出具的免責聲明中也寫道:“Gemini 可能會出錯,請務必仔細檢查”。
馬克斯·普朗克光科學研究所人工科學家實驗室負責人 Mario Krenn 指出,這些 AI 產品并不是在進行科學家通常意義上的“研究”。他表示,科學家們會花費數年時間深入研究單一主題,并逐步發展新的思想。“這種能力目前尚未在 AI 上得到驗證”。Krenn 補充道:“也許很快就會實現,誰也無法預料這些天會發生什么”。
測試結果
OpenAI 對其產品進行了一系列測試。例如,在人類的最后考試(Humanity's Last Exam,HLE)中, Deep Research 表現出色。HLE 是一項 3000 道題的基準測試,涵蓋了從語言學到科學等各個學科的專家級知識,其設計難度遠高于現在人工智能所能勝任的其他常見測試(如 GPQA)。該測試涵蓋了從語言學到科學等各個領域的專家級知識。在測試中,Deep Research 在 HLE 的純文本問題上以 26.6% 的成績名列第一。
OpenAI 還針對 GAIA 基準進行了測試。GAIA 基準于 2023 年開發,用于測試能夠進行多步推理和網頁瀏覽來回答問題的人工智能。在公開的 GAIA 排行榜上,跨國公司 H2O.ai 的智能體位居榜首,該智能體由 Anthropic 的 Claude 3.5 Sonnet 提供支持,并在最高難度級別上得分 40.82%。而 OpenAI 的 Deep Research 得分為 58.03%。
相較于 OpenAI 的測試結果,谷歌則表示,該公司目前沒有可分享的基準測試結果。然而,White 指出,OpenAI 選擇的基準測試僅針對答案簡短、可驗證的問題,可能并不適用于測試生成長篇且沒有固定回答的問題。“我認為這些基準測試最終會被功能性基準取代,”他說,例如通過人工評估文章的質量和實用性。White 之前曾參與一項研究,其中人類專家對 AI 生成和人類撰寫的維基百科風格科學主題摘要進行了盲評,結果 AI 獲勝。
這兩款產品都有一些局限性。它們都無法提取付費信息,其中包括許多科學論文。這“是一個非常、非常重大的問題,”支持開放科學的 Unutmaz 表示,“獲取這些知識比以往任何時候都更加重要”。一些科學家在線論壇上提出,他們應該能夠將自己的期刊密碼輸入 AI 工具,并推測可以利用 OpenAI 的新“operator”智能體來實現這一點。對此,OpenAI CEO Sam Altman 也在推特上回應道:“我們確實需要找到一個解決方案“。
翻譯:陳小宇
原文作者:Nicola Jones(自由科學記者、作家和編輯)
https://www.nature.com/articles/d41586-025-00377-9
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.