99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

o1再升級!人大&清華提出Search-o1:賦予推理模型主動搜索的能力

0
分享至

近年來,推理模型如OpenAI-o1和千問QwQ等,展示出了令人印象深刻的逐步推理能力。然而,這些模型在進行長鏈式推理時,常常面臨知識不足的問題,導致推理過程中出現不確定性和潛在錯誤。為了解決這一挑戰,本文提出了一種新的框架——Search-o1,旨在通過自主知識檢索,提升大型推理模型的可靠性和適用性。


Paper: https://arxiv.org/abs/2501.05366

HuggingFace:

https://huggingface.co/papers/2501.05366

Github:

https://github.com/sunnynexus/Search-o1

推理模型的現狀與挑戰

大型推理模型通過大規模的強化學習,能夠進行長步驟的逐步推理,適用于科學、數學、編碼等復雜領域。這種“慢思考”模式不僅增強了推理的邏輯連貫性和可解釋性,但也帶來了一個顯著的問題:知識不足。在推理過程中,模型可能會遇到無法確定的知識點,導致整個推理鏈條的錯誤傳播,影響最終的答案質量。

研究動機

在初步實驗中,本文發現,類似OpenAI-o1的推理模型在處理復雜問題時,平均每個推理過程中會出現超過30次的不確定詞匯,如“或許”、“可能”等。這不僅增加了推理的復雜性,還使得手動驗證推理過程變得更加困難。因此,如何在推理過程中自動補充所需知識,成為提升大型推理模型可信度的關鍵。


Search-o1:自主知識檢索增強的推理框架

為了解決上述問題,本文提出了Search-o1框架。該框架通過集成自主檢索增強生成(Agentic Retrieval-Augmented Generation)機制文檔內推理模塊(Reason-in-Documents),實現了在推理過程中動態獲取和整合外部知識的能力。


核心組件

1.自主檢索增強生成機制:Search-o1 使模型能夠在推理過程中自主決定何時檢索外部知識。當模型在推理中遇到不確定的知識點時,會自動生成檢索查詢,獲取相關的外部文檔。這種動態檢索方式相比傳統的靜態檢索,更加靈活和高效。

2.文檔內推理模塊:為了避免直接插入冗長且可能含有噪音的檢索文檔,Search-o1 引入了知識精煉模塊。該模塊能夠對檢索到的文檔進行篩選和精煉,提取出與當前推理步驟高度相關的關鍵信息,確保推理過程的連貫性和邏輯一致性。

推理過程

在Search-o1的推理過程中,模型會在生成推理鏈條的過程中,自動檢測是否需要檢索外部知識。當需要時,模型會生成特定的檢索查詢,獲取相關文檔,并通過文檔內推理模塊精煉這些文檔,將精煉后的知識無縫整合到推理鏈條中。這一過程能夠反復進行,確保模型在整個推理過程中都能獲得所需的外部知識支持。


實驗結果

為了驗證Search-o1的有效性,本文在多個復雜推理任務和開放域問答基準上進行了廣泛的實驗。以下是主要的實驗結果:

復雜推理任務


在復雜推理任務中,包括PhD級別的科學問答(GPQA)、數學(MATH500、AMC2023、AIME2024)和編碼能力(LiveCodeBench),Search-o1均顯著優于傳統的直接推理方法和標準RAG方法。

  1. 大型推理模型的優勢:即使在沒有檢索增強的情況下,QwQ-32B-Preview模型在多個任務上也表現優異,甚至超過了一些更大規模的模型,如Qwen2.5-72B和Llama3.3-70B。這展示了大型推理模型在推理任務中的強大能力。

  2. 自主檢索增強的效果:使用自主RAG機制的RAgent-QwQ-32B在大多數任務上超越了標準RAG和直接推理的QwQ-32B,表明自主檢索能夠有效提升推理模型的知識獲取能力。

  3. Search-o1的卓越表現:進一步引入文檔內推理模塊后的Search-o1,在大多數任務上超越了RAgent-QwQ-32B,尤其在GPQA、數學和編碼任務上取得了顯著的性能提升。

檢索文檔數量的影響


研究發現,Search-o1能夠有效利用增加的檢索文檔數量,進一步提升復雜推理任務的處理能力。即使只檢索一篇文檔,Search-o1也能夠超過直接推理和標準RAG模型,顯示出自主檢索和文檔精煉策略的高效性。

開放域問答任務


在開放域問答任務中,尤其是多跳問答任務,Search-o1表現尤為突出,平均準確率提升了近30%,充分展示了其在知識密集型任務中的優勢。而在單跳任務中,雖然提升不顯著,但這也表明多跳任務更需要動態知識檢索的支持。

結語:邁向更可信賴的智能系統

Search-o1 不僅提升了大型推理模型在復雜任務中的表現,更為智能系統的可靠性和適用性奠定了堅實的基礎。通過自主知識檢索和精煉整合,Search-o1有效解決了知識不足的問題,顯著增強了推理模型的可信度和實用性。未來,隨著這一框架的進一步優化和推廣,我們可以賦予類o1的推理模型更多的工具,而不僅局限于Search這一個工具,在更多復雜問題的解決中展現出更強大的能力。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
堅決不和美國續約!中國這次鐵了心,特朗普對華火速變臉

堅決不和美國續約!中國這次鐵了心,特朗普對華火速變臉

搜國天下
2025-04-25 14:44:31
北京朝陽大媽闖大禍!7天偷100多個快遞,是為了解悶,結局舒適。

北京朝陽大媽闖大禍!7天偷100多個快遞,是為了解悶,結局舒適。

楊哥歷史
2025-04-26 10:14:40
“一絲不掛”新舞蹈?惹爭議,被摸下體更不害臊,金星質疑是對的

“一絲不掛”新舞蹈?惹爭議,被摸下體更不害臊,金星質疑是對的

吃魚思故淵
2024-05-16 21:48:21
4月26日中央5套CCTV5、CCTV5+直播節目預告 附國乒WTT常挑賽賽程

4月26日中央5套CCTV5、CCTV5+直播節目預告 附國乒WTT常挑賽賽程

金風說
2025-04-26 13:38:39
烏克蘭,活下去

烏克蘭,活下去

關爾東
2025-03-06 18:25:25
俄軍奪回庫爾斯克99.5%烏控區,攻入別爾哥羅德的烏軍被打退

俄軍奪回庫爾斯克99.5%烏控區,攻入別爾哥羅德的烏軍被打退

科軍論評
2025-04-24 14:32:14
于正回應多名藝人退圈:優勝劣汰,這是一個好事情

于正回應多名藝人退圈:優勝劣汰,這是一個好事情

魯中晨報
2025-04-25 17:04:08
新《奔跑吧》最無聊的3位嘉賓,無趣、無梗、惹人厭,不要再來了

新《奔跑吧》最無聊的3位嘉賓,無趣、無梗、惹人厭,不要再來了

八卦南風
2025-04-26 10:44:53
53歲藤原紀香:曾跟郭富城熱戀,身姿豐滿,成熟富有魅力

53歲藤原紀香:曾跟郭富城熱戀,身姿豐滿,成熟富有魅力

紅大娘娛樂
2025-04-24 12:42:29
佟大為回本溪老家參加婚禮,這畫風反差絕了

佟大為回本溪老家參加婚禮,這畫風反差絕了

鄉野小珥
2025-04-26 14:30:46
24歲女子因胸太大去縮胸,網友吐槽她浪費好身材:身在福中不知福

24歲女子因胸太大去縮胸,網友吐槽她浪費好身材:身在福中不知福

唐小糖說情感
2025-03-26 10:16:34
我國采購越南900萬噸大米,卻用霉大米以次充好,我國:一粒米都不要

我國采購越南900萬噸大米,卻用霉大米以次充好,我國:一粒米都不要

睡前講故事
2025-04-22 11:23:11
新華社發文!高校大門要向公眾打開,讓老百姓都有機會自由出入。

新華社發文!高校大門要向公眾打開,讓老百姓都有機會自由出入。

楊哥歷史
2025-04-23 11:38:57
奧運冠軍家蓋房記:5個孩子等8間房 施工隊連夜推平地基

奧運冠軍家蓋房記:5個孩子等8間房 施工隊連夜推平地基

小呆魚
2025-04-26 07:15:03
DeepSeek評出國內最值得去的十大景點,九寨溝第3,三峽無緣上榜

DeepSeek評出國內最值得去的十大景點,九寨溝第3,三峽無緣上榜

古今小史
2025-04-08 09:34:12
來了來了!巴特勒最新傷情報告!當事人首次正面回應……

來了來了!巴特勒最新傷情報告!當事人首次正面回應……

籃球實戰寶典
2025-04-25 20:46:41
民眾黨5位民代今上凱道“戰獨裁”,陳佩琪也現身力挺,黃珊珊缺席

民眾黨5位民代今上凱道“戰獨裁”,陳佩琪也現身力挺,黃珊珊缺席

海峽導報社
2025-04-26 08:07:03
“你以為我們怕美國嗎?”美媒記者探訪義烏工廠得到這樣的回應

“你以為我們怕美國嗎?”美媒記者探訪義烏工廠得到這樣的回應

環球網資訊
2025-04-26 14:38:32
美艦再次闖臺海,豪賭中國會忍讓?解放軍14機迫近臺島,敢于亮劍

美艦再次闖臺海,豪賭中國會忍讓?解放軍14機迫近臺島,敢于亮劍

博覽歷史
2025-04-25 13:24:08
特朗普體面服軟,90國想不到,中方第1個獲降稅待遇,美安排特殊

特朗普體面服軟,90國想不到,中方第1個獲降稅待遇,美安排特殊

吳欣純Deborah
2025-04-25 16:31:07
2025-04-26 15:47:00
人工智能研究 incentive-icons
人工智能研究
分享深度學習、CV、NLP
258文章數 125關注度
往期回顧 全部

科技要聞

李斌:對蔚來公司四季度盈利非常有信心

頭條要聞

男子炒股11年賺6000萬:初始本金150萬 曾1天虧1100萬

頭條要聞

男子炒股11年賺6000萬:初始本金150萬 曾1天虧1100萬

體育要聞

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

健康
房產
旅游
藝術
時尚

唇皰疹和口腔潰瘍是"同伙"嗎?

房產要聞

逆勢大幅漲價!最高2.8萬/平!長天雲汀開盤又賣爆了!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

今夏流行“不穿褲子”!洋氣顯瘦顯腿長,誰穿誰好看!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丹寨县| 金塔县| 卓尼县| 砚山县| 河南省| 拜城县| 壶关县| 阳山县| 北辰区| 泰和县| 渑池县| 合江县| 修文县| 承德县| 平定县| 磴口县| 抚顺市| 镶黄旗| 庆城县| 新丰县| 临沭县| 偃师市| 新余市| 调兵山市| 民和| 兴隆县| 八宿县| 宜州市| 濮阳市| 海伦市| 大兴区| 鹤庆县| 安陆市| 门头沟区| 新兴县| 新安县| 灵石县| 镇巴县| 花垣县| 磐石市| 六枝特区|