AI好好用報(bào)道
編輯:Sia
行業(yè)似乎正朝著一個(gè)未來(lái)邁進(jìn),即一個(gè)模型可以做所有事情,而不是提供獨(dú)立的推理模型。
看來(lái) AI 圈的軍備競(jìng)賽,又要進(jìn)入新回合了~
繼去年 6 月推出超能打的 Claude 3.5 Sonnet 后,OpenAI 勁敵 Anthropic 又拿出了新的旗艦?zāi)P?Claude 3.7 Sonnet。
它不僅是 Anthropic 首個(gè)能夠推理的 AI 模型,還號(hào)稱業(yè)界首個(gè)「混合推理模型」。
前兩天也有科技媒體報(bào)道,OpenAI 可能即將發(fā)布自己的混合 AI 模型。
啥叫混合推理模型?
簡(jiǎn)單來(lái)說(shuō),o3-mini、R1、Gemini 2.0 Flash Thinking 和 Grok 3 ( Think ) 等都是單獨(dú)提供推理模型。
而 Claude 3.7 Sonnet 用一種混合推理架構(gòu),將邏輯推理與生成能力進(jìn)行了深度融合。
換句話說(shuō),Claude 3.7 Sonnet 既是普通的基礎(chǔ)模型,日常嘮嗑秒回你(標(biāo)準(zhǔn)模式);又是推理模型,遇到燒腦題可切換學(xué)霸模式(擴(kuò)展模式)。
聊天框里就能自由切換,非常方便!
咱們?nèi)祟惲奶欤?jiǎn)單問題脫口而出,復(fù)雜問題托腮思考,根本沒有兩個(gè)獨(dú)立的大腦分別應(yīng)對(duì)不同問題。
所以,Anthropic 認(rèn)為,推理只是前沿模型應(yīng)該具備的功能之一,可以與其他功能順利整合,不該是個(gè)需要單獨(dú)付費(fèi)才能訪問的獨(dú)立功能。
只要你是付費(fèi)用戶,這波升級(jí)就算白給!
還是每月 20 美元的訂閱費(fèi),即可解鎖推理功能!
開發(fā)者可通過「scratchpad」功能干預(yù)模型思考過程,甚至精確控制響應(yīng)時(shí)間(如要求200毫秒內(nèi)響應(yīng))。
據(jù)《華爾街日?qǐng)?bào)》的報(bào)道,Anthropic 發(fā)布 Claude 3.7 Sonnet,年化收入約為 12 億美元,公司仍在虧損。
Anthropic 正在完成一輪 35 億美元的融資,估值達(dá)到 615 億美元。如果融資成功,Anthropic 的總籌集金額將接近 180 億美元。
代碼:妥妥的 NO.1
基準(zhǔn)測(cè)試顯示,3.7 版本在數(shù)學(xué)和編碼任務(wù)中表現(xiàn)顯著提升,能處理更復(fù)雜的多步驟問題。
簡(jiǎn)單探討顏色名稱的起源與歷史事件之間的關(guān)系——「如果沒有 Magenta 這個(gè)小鎮(zhèn),『洋紅色』的叫法還存在嗎?」
啟動(dòng)擴(kuò)展思考,Claude 3.7 Sonnet 推理能力顯然在線:
名字來(lái)源于紀(jì)念這座小鎮(zhèn)的一場(chǎng)戰(zhàn)役,如果小鎮(zhèn)不存在,這個(gè)顏色的名字就可能是另一個(gè)名稱,答案說(shuō),不會(huì)有這個(gè)名字的存在。
正確!
來(lái)自科技媒體arstechnica
當(dāng)然,3.7 版本的編碼能力最為突出,以至于人們會(huì)揣測(cè) Anthropic 要將 Sonnet 系列定位為編碼 AI。
一些科研人員也與 Nature 分享過經(jīng)驗(yàn),認(rèn)為 Claude 屬于「代碼型」。
事實(shí)上,Claude 3.5 早已是很多開發(fā)者心目中最佳的 AI 編程的模型,Claude 3.7 進(jìn)一步將這一優(yōu)勢(shì)提升了 20%,穩(wěn)居第一。
Claude 一直就是很多開發(fā)者心目中最佳的 AI 編程的模型。
新模型到底有多驚艷呢?
有網(wǎng)友用 Claude 3.7 Sonnet 編寫新春版貪吃蛇游戲,一次成功。
來(lái)自 X @wshuyi
生成動(dòng)畫天氣卡片,展示四種天氣條件:風(fēng)、雨、晴、雪,每種都有不同的動(dòng)畫效果,并且要并排顯示在一個(gè)深色背景上。
此外,還要有一個(gè)功能或按鈕來(lái)切換不同的天氣條件,展示每種動(dòng)畫。
X@AGI_FromWalmart
更復(fù)雜一點(diǎn)。「做一個(gè)可以互動(dòng)的時(shí)間機(jī)器,挑選一些不尋常的時(shí)代,供人穿越回到過去,并發(fā)生一些有趣的事情。」并且,「添加更多圖形。」
僅僅通過這兩個(gè)提示,就產(chǎn)生了一個(gè)完全可互動(dòng)的體驗(yàn),配有粗糙但迷人的像素圖形。
這里的挑戰(zhàn)性在于 AI 必須用純代碼「繪制」這些圖形,這就像要求一位盲人畫家準(zhǔn)確呈現(xiàn)它們。
來(lái)自X@emollick
再來(lái)一個(gè)。讓 Claude 基于赫爾曼·梅爾維爾的故事《巴特比,抄寫員》創(chuàng)作一款具有獨(dú)特機(jī)制的視頻游戲。
結(jié)果,它僅憑一個(gè)提示就完成了。
來(lái)自X@emollick
創(chuàng)建一個(gè) 3D 城市場(chǎng)景。
來(lái)自 X@ozgrozer
一個(gè)三角球在十二邊形內(nèi)彈跳,每次彈跳時(shí)球都會(huì)改變顏色,背景是太空。
來(lái)自X@KungFuKurrupttt
看看這個(gè)多米諾骨牌效應(yīng)。
來(lái)自 X@_akhaliq
AI Agent :Claude Code
到目前為止,2025 年是 R1 、 o3、以及 AI Agent 工具(如 OpenAI 的Operator 和 Deep Research )的一年。
Anthropic 也不甘落后,同時(shí)宣布了其首款代理工具 Claude Code。
這是一款自主編碼助手,你可以直接將大量的終端任務(wù)委派給它—— Claude Code 可以搜索和閱讀代碼、編輯文件、編寫和運(yùn)行測(cè)試、提交和推送代碼到 GitHub,以及使用命令行工具。
有人用 Sonnet 3.7 進(jìn)行視頻編碼,發(fā)現(xiàn)效果非常出色。他們還開發(fā)了一個(gè)機(jī)器人,這個(gè)機(jī)器人可以使用 Claude Code 將 Linear 任務(wù)工單自動(dòng)轉(zhuǎn)換成 GitHub 上的拉取請(qǐng)求。
來(lái)自X@pveerina
在這個(gè)案例中,Claude 3.7 Sonnet 與 Claude Code 一次性創(chuàng)建了整個(gè)玻璃風(fēng)格的設(shè)計(jì)系統(tǒng),包含所有組件, 甚至正確使用了變量而不是像顏色等那樣硬編碼。
來(lái)自X@skirano
Anthropic 還希望 Claude Code 能作為調(diào)試和重構(gòu)任務(wù)的助手。公司聲稱,在內(nèi)部測(cè)試中,Claude Code 能在一次會(huì)話中完成通常需要超過 45 分鐘的手動(dòng)工作。
目前,Claude Code 僅作為有限的研究預(yù)覽提供,Anthropic 表示計(jì)劃根據(jù)用戶反饋不斷改進(jìn)該工具。
svg 繪圖王者
還記得那個(gè)讓大模型惱火的 svg 繪圖挑戰(zhàn)賽嗎?請(qǐng)畫一只騎自行車的鵜鶘。
在這場(chǎng) svg 可視化能力實(shí)測(cè)中,大模型們幾乎全軍覆沒,除了 Claude,以至于 Andrzej Karpathy 推測(cè) Claude 是針對(duì) svg 專門訓(xùn)練過的。
這回,Claude 3.7 再次證明自己依然是 svg 可視化的王者。
來(lái)自X@simonw,這是沒有啟用推理功能(左)和啟用后(右)的對(duì)比。
有網(wǎng)友請(qǐng)它創(chuàng)建一個(gè) svg 格式的 Swimlane Diagram,需要滿足一系列復(fù)雜的規(guī)范。
結(jié)果,3.7版本完美生成了 svg 的 Swimlane Diagram。
來(lái)自X@LinearUncle
還有人發(fā)現(xiàn)花的 tokens 越多,獨(dú)角獸越像獨(dú)角獸。
來(lái)自X@DimitrisPapail
至于講笑話嘛,要求「創(chuàng)作 5 個(gè)世界上找不到的原創(chuàng)老爸笑話」。這是一些結(jié)果:
「為什么程序員要洗澡?因?yàn)樗麄円{(diào)試代碼!」
「氣象學(xué)家對(duì) IT 專家說(shuō)了什么?『你的云計(jì)算預(yù)測(cè)看起來(lái)有點(diǎn)技術(shù)性,還有更新的可能!』」
看完后,我只想說(shuō)「把我的槍拿來(lái)。」
來(lái)自科技媒體arstechnica
值得注意的是,Claude 3.7 Sonnet 仍然缺乏其他模型的實(shí)時(shí)網(wǎng)絡(luò)搜索功能,其知識(shí)截止日期為 2024 年 10 月 。
以后我們會(huì)帶來(lái)更多好玩的AI評(píng)測(cè),也歡迎大家進(jìn)群交流。
? THE END
轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.