今日凌晨,Anthropic 突然發布了全球首款混合推理模型、迄今為止最好的編碼模型——Claude 3.7 Sonnet。(Claude 4.0 還要再等一等[皺眉])
據官方介紹,Claude 3.7 Sonnet 具有“一個模型,兩種思考方式”(One model, two ways to think)的特點,即標準和擴展思考模式。用戶可以選擇何時讓模型正?;卮饐栴},何時讓模型思考更長時間再回答問題。
“正如人類使用單個大腦進行快速反應和深度思考一樣,我們認為推理應該是前沿模型的一種綜合能力,而不是完全獨立的模型。這種統一的方法還能為用戶帶來更完美的體驗。”
Claude 3.7 Sonnet 可以生成近乎即時的響應,也可以生成用戶可見的擴展、逐步思考的結果,在編碼和前端網絡開發方面的改進尤為顯著。
另外,API 用戶還可以對模型的思考時間進行精細控制。例如,用戶可以告訴 Claude 思考的時間不超過 N 個 token,無論 N 為多少,其輸出限制為 128K 個 token。這允許用戶在速度(和成本)和答案質量之間進行權衡。
早期測試表明,Claude 3.7 Sonnet 的編碼能力全面領先于其它模型,在處理復雜代碼庫和高級工具使用等方面都有顯著改進。在評估 LLM 解決 GitHub 上真實軟件問題能力的基準測試數據集 SWE-bench Verified 上,Claude 3.7 Sonnet 的表現達到了 SOTA。
在評估 LLM 在復雜真實場景中用戶與工具交互能力的基準 TAU-bench 上,Claude 3.7 Sonnet 超過了 Claude 3.5 Sonnet 和 OpenAI 的 o1,達到了 SOTA。
除了 Claude 3.7 Sonnet ,Anthropic 還推出了一個用于代理編碼的命令行工具——Claude Code,能夠使開發人員可以直接從終端將大量工程任務委托給 Claude。
此外,Anthropic 還對外展示了他們的發展圖景——2025 年,Claude 成為獨立自主工作數小時的專家級智能體;2027 年,Claude 能夠解決人工團隊花費數年才能解決的挑戰性難題[加油]。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.