文 | 闌夕
DeepSeek火出圈的這十幾天,其實(shí)也是噪音最多的一段時(shí)間,說(shuō)實(shí)話大部分的討論成品都有種加班硬趕KPI的味道,是人是鬼都在掰扯,有留存價(jià)值的屈指可數(shù),倒是有兩期播客讓我聽后受益匪淺,非常推薦。
一個(gè)是張小珺請(qǐng)來(lái)加州伯克利大學(xué)AI實(shí)驗(yàn)室博士潘家怡對(duì)DeepSeek論文的逐句講解,接近3個(gè)小時(shí)的高密度輸出,非常能殺腦細(xì)胞,但殺完之后分泌出來(lái)的內(nèi)啡肽,也含量爆炸。
另一個(gè)是Ben Thompson關(guān)于DeepSeek的3集播客合集,加起來(lái)1個(gè)多小時(shí),這哥們是News Letter的開創(chuàng)者,也是全球最懂技術(shù)的分析師之一,常年旅居臺(tái)北,對(duì)中國(guó)/亞洲的近距離洞察比美國(guó)同行要高很多。
先說(shuō)張小珺的那期,嘉賓潘家怡當(dāng)時(shí)是在讀完DeepSeek的論文之后,最快開發(fā)出了小規(guī)模復(fù)現(xiàn)R1-Zero模型的項(xiàng)目,在GitHub上已經(jīng)接近1萬(wàn)Stars。
這種薪火相傳式的知識(shí)接力,其實(shí)是技術(shù)領(lǐng)域理想主義的投射,就像月之暗面的研究員Flood Sung也說(shuō),Kimi的推理模型k1.5最初就是基于OpenAI放出來(lái)的兩個(gè)視頻得到了啟發(fā),更早一點(diǎn),當(dāng)Google發(fā)布「Attention Is All You Need」之后,OpenAI立刻就意識(shí)到了Transformer的未來(lái),智慧的流動(dòng)性才是一切進(jìn)步的先決條件。
所以大家才對(duì)Anthropic創(chuàng)始人Dario Amodei那番「科學(xué)沒有國(guó)界,但科學(xué)家有祖國(guó)」的封鎖表態(tài)大為失望,他在否定競(jìng)爭(zhēng)的同時(shí),也在挑戰(zhàn)基本常識(shí)。
繼續(xù)回到播客內(nèi)容上,我還是試著劃些重點(diǎn)出來(lái)給你們看,推薦有時(shí)間的還是聽完原版:
- OpenAI o1在驚艷登場(chǎng)的同時(shí)做了非常深厚的隱藏工作,不希望被其他廠商破解原理,但從局勢(shì)上有點(diǎn)像是在給行業(yè)提了一個(gè)謎語(yǔ),賭的是在座各位沒那么快解出來(lái),DeepSeek-R1是第一個(gè)找出答案的,而且找答案的過程相當(dāng)漂亮;
- 開源能夠比閉源提供更多的確定性,這對(duì)人力的增長(zhǎng)和成果的產(chǎn)出都是很有幫助的,R1相當(dāng)于把整個(gè)技術(shù)路線都明示了出來(lái),所以它在激發(fā)科研投入上的的貢獻(xiàn)要?jiǎng)龠^藏招的o1;
- 盡管AI產(chǎn)業(yè)的燒錢規(guī)模越來(lái)越大,但事實(shí)上就是我們已經(jīng)有接近2年時(shí)間沒有獲得下一代模型了,主流模型還在對(duì)齊GPT-4,這在一個(gè)主張「日新月異」的市場(chǎng)里是很罕見的,即便不去追究Scaling Laws有沒有撞墻,OpenAI o1本身也是一次新的技術(shù)線嘗試,用語(yǔ)言模型的方式讓AI學(xué)會(huì)思考;
- o1在基準(zhǔn)測(cè)試?yán)镏匦聦?shí)現(xiàn)了智力水平的線形提升,這很牛逼,發(fā)的技術(shù)報(bào)告里沒有披露太多細(xì)節(jié),但關(guān)鍵的地方都講到了,比如強(qiáng)化學(xué)習(xí)的價(jià)值,預(yù)訓(xùn)練和監(jiān)督微調(diào)相當(dāng)于是給模型提供正確答案用來(lái)模仿,久而久之模型就學(xué)會(huì)依葫蘆畫瓢了,但強(qiáng)化學(xué)習(xí)是讓模型自己去完成任務(wù),你只告訴它結(jié)果是對(duì)還是不對(duì),如果對(duì)就多這么干,如果不對(duì)就少這么干;
- OpenAI發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)可以讓模型產(chǎn)生接近人類思考的效果,也就是CoT(思維鏈),它會(huì)在解題步驟出錯(cuò)時(shí)回到上一步嘗試想些新辦法,這些都不是人類研究員教出來(lái)的,而是模型自己為了完成任務(wù)被逼,哦不,是涌現(xiàn)出來(lái)的能力,后來(lái)當(dāng)DeepSeek-R1也復(fù)現(xiàn)出了類似的「頓悟時(shí)刻」,o1的核心堡壘也就被實(shí)錘攻破了;
- 推理模型本質(zhì)上是一個(gè)經(jīng)濟(jì)計(jì)算的產(chǎn)物,如果強(qiáng)行堆砌算力,可能到了GPT-6仍然可以硬懟出類似o1的效果,但那就不是大力出奇跡了,而是奇跡出奇跡,可以但沒必要,模型能力可以理解為訓(xùn)練算力x推理算力,前者已經(jīng)太貴了,后者還很便宜,但乘數(shù)效應(yīng)是差不多相等的,所以現(xiàn)在行業(yè)都開始扎走搞性價(jià)比更優(yōu)的推理路線;
- 上個(gè)月末o3-mini的發(fā)布和DeepSeek-R1可能關(guān)系不大,但o3-mini的定價(jià)降到了o1-mini的1/3,肯定是受到了很大的影響,OpenAI內(nèi)部認(rèn)為ChatGPT的商業(yè)模式是有護(hù)城河的,但賣API沒有,可替代性太強(qiáng)了,國(guó)內(nèi)最近也有關(guān)于ChatBot是不是一門好生意的爭(zhēng)議,甚至DeepSeek很明顯都沒有太想明白怎么承接這波潑天流量,做消費(fèi)級(jí)市場(chǎng)和做前沿研究可能是有天然沖突的;
- 在技術(shù)專家看來(lái),DeepSeek-R1-Zero要比R1更加漂亮,因?yàn)槿斯じ深A(yù)的成分更低,純粹是模型自己摸索出了在推理幾千步里尋找到最優(yōu)解的流程,對(duì)先驗(yàn)知識(shí)的依賴沒那么高,但因?yàn)闆]有做對(duì)齊處理,R1-Zero基本上沒法交付給用戶使用,比如它會(huì)各種語(yǔ)言?shī)A雜著輸出,所以實(shí)際上DeepSeek在大眾市場(chǎng)得到認(rèn)同的R1,還是用了蒸餾、微調(diào)甚至預(yù)先植入思維鏈這些舊手段;
- 這里涉及到一個(gè)能力和表現(xiàn)并不同步的問題,能力最好的模型未必是表現(xiàn)最好的,反之亦然,R1表現(xiàn)出色很大程度上還是因?yàn)槿斯な箘诺姆较虻轿唬谟?xùn)練語(yǔ)料上R1沒有獨(dú)占的,大家的語(yǔ)料庫(kù)里都會(huì)包含古典詩(shī)詞那些,不存在R1懂得更多,真正的原因可能在于數(shù)據(jù)標(biāo)注這塊,據(jù)說(shuō)DeepSeek找了北大中文系的學(xué)生來(lái)做標(biāo)注,這會(huì)顯著提高文采表達(dá)的獎(jiǎng)勵(lì)函數(shù),一般行業(yè)里不會(huì)太喜歡用文科生,包括梁文鋒自己有時(shí)也會(huì)做標(biāo)注的說(shuō)法不只是說(shuō)明他的熱情,而是標(biāo)注工程早就到了需要專業(yè)做題家去輔導(dǎo)AI的地步,OpenAI也是付100-200美金的時(shí)薪去請(qǐng)博士生為o1做標(biāo)注;
- 數(shù)據(jù)、算力、算法是大模型行業(yè)的三個(gè)飛輪,這一波的主要突破來(lái)自算法,DeepSeek-R1發(fā)現(xiàn)了一個(gè)誤區(qū),就是傳統(tǒng)算法里對(duì)于價(jià)值函數(shù)的重視可能是陷阱,價(jià)值函數(shù)傾向于對(duì)推理過程的每一步去做判斷,由此事無(wú)巨細(xì)的把模型向正確的道路上引導(dǎo),比如模型在解答1+1等于幾的時(shí)候,當(dāng)它產(chǎn)生1+1=3的幻覺了,就開始懲罰它,有點(diǎn)像電擊療法,不許它犯錯(cuò);
- 這種算法理論上沒毛病,但也非常完美主義,不是每道題目都是1+1這樣簡(jiǎn)單的,尤其是在長(zhǎng)思維鏈里動(dòng)輒推理幾千個(gè)Token序列的情況下,要對(duì)每一步都進(jìn)行監(jiān)督,投入產(chǎn)出比會(huì)變得非常低,所以DeepSeek做出了一個(gè)違背祖訓(xùn)的決定,不再用價(jià)值函數(shù)去滿足研究時(shí)的強(qiáng)迫癥,只對(duì)答案進(jìn)行打分,讓模型自己去解決怎么用正確的步驟得到答案,即便它存在1+1=3的解題思路,也不去過度糾正,它反而會(huì)在推理過程里意識(shí)到不對(duì)勁,發(fā)現(xiàn)這么算下去得不出正確答案,然后做出自我糾正;
- 算法是DeepSeek之于整個(gè)行業(yè)的最大創(chuàng)新,包括要怎么分辨模型是在模仿還是推理,我記得o1出來(lái)后有很多人聲稱通過提示詞讓通用模型也能輸出思維鏈,但那些模型都沒有推理能力,實(shí)際上就是模仿,它還是按照常規(guī)模式給出了答案,但是因?yàn)橐獫M足用戶要求,又回過頭基于答案給出思路,這就是模仿,是先射箭后畫靶的無(wú)意義動(dòng)作,而DeepSeek在對(duì)抗模型破解獎(jiǎng)勵(lì)方面也做了很多努力,主要就是針對(duì)模型變得雞賊的問題,它逐漸猜到怎么思考會(huì)得到獎(jiǎng)勵(lì),卻沒有真的理解為什么要這么思考;
- 這幾年來(lái)行業(yè)里一直在期待模型誕生涌現(xiàn)行為,以前會(huì)覺得知識(shí)量足夠多了,模型就能自然演化出智慧,但o1之后發(fā)現(xiàn)推理好像才是最關(guān)鍵的那塊跳板,DeepSeek就在論文里強(qiáng)調(diào)了R1-Zero有哪些行為是自主涌現(xiàn)而非人為命令的,像是當(dāng)它意識(shí)到生成更多的Token才能思考得更加完善、并最終提高自己的性能時(shí),它就開始主動(dòng)的把思維鏈越變?cè)介L(zhǎng),這在人類世界是本能——長(zhǎng)考當(dāng)然比快棋更有策略——但讓模型自個(gè)得出這樣的經(jīng)驗(yàn),非常讓人驚喜;
- DeepSeek-R1的訓(xùn)練成本可能在10萬(wàn)-100萬(wàn)美金之間,比起V3的600萬(wàn)美金更少,加上開源之后DeepSeek還演示了用R1去蒸餾其他模型的結(jié)果,以及蒸餾之后還能繼續(xù)強(qiáng)化學(xué)習(xí),可以說(shuō)開源社區(qū)對(duì)于DeepSeek的擁戴不是沒有理由的,它把通往AGI的門票從奢侈品變成了快消品,讓更多的人可以進(jìn)來(lái)嘗試了;
- Kimi k1.5是和DeepSeek-R1同時(shí)發(fā)布的,但因?yàn)闆]有開源,加上國(guó)際上積累不足,所以雖然也貢獻(xiàn)了類似的算法創(chuàng)新,影響力卻相當(dāng)有限,再就是Kimi因?yàn)槭艿?C業(yè)務(wù)的影響,會(huì)比較突出用短思維鏈實(shí)現(xiàn)接近長(zhǎng)思維鏈的方法,所以它會(huì)獎(jiǎng)勵(lì)k1.5用更短的推理,這個(gè)初衷雖然是迎合用戶——不想讓人在提問后等太久——但好像有些事與愿違的回報(bào),DeepSeek-R1的很多出圈素材都是思維鏈里的亮點(diǎn)被用戶發(fā)現(xiàn)并傳播,對(duì)于頭一次接觸推理模型的人來(lái)說(shuō),他們似乎并不介意模型的冗長(zhǎng)效率;
- 數(shù)據(jù)標(biāo)注是全行業(yè)都在藏的一個(gè)點(diǎn),但這也只是一項(xiàng)過渡方案,像是R1-Zero那種自學(xué)習(xí)的路線圖才是理想,目前來(lái)看OpenAI的護(hù)城河還是很深,上個(gè)月它的Web流量達(dá)到了有史以來(lái)的最高值,DeepSeek的火爆客觀上會(huì)為全行業(yè)拉新,但Meta會(huì)比較難受,LLaMa 3實(shí)際沒有架構(gòu)層的創(chuàng)新,也完全沒有預(yù)料到DeepSeek對(duì)開源市場(chǎng)的沖擊,Meta的人才儲(chǔ)備非常強(qiáng)大,但組織架構(gòu)沒有把這些資源轉(zhuǎn)化成技術(shù)成果。
再說(shuō)Ben Thompson的播客,他在很多地方交叉驗(yàn)證了潘家怡的判斷,比如R1-Zero在RLHF里去掉了HF(人類反饋)的技術(shù)亮點(diǎn),但更多的論述則是放在了地緣競(jìng)爭(zhēng)和大廠往事,敘事的觀賞性非常流暢:
- 硅谷過度重視AI安全的動(dòng)機(jī)之一在于可以借此把封閉行為合理化,早在GPT-2的協(xié)議里就以避免大語(yǔ)言模型被利用拿去生成「欺騙性、帶偏見」的內(nèi)容,但「欺騙性、帶偏見」遠(yuǎn)未達(dá)到人類滅絕級(jí)別的風(fēng)險(xiǎn),這本質(zhì)上是文化戰(zhàn)爭(zhēng)的延續(xù),而且基于一個(gè)「?jìng)}廩實(shí)而知禮節(jié)」的假設(shè)上,即美國(guó)的科技公司在技術(shù)上擁有絕對(duì)的優(yōu)勢(shì),所以我們才有資格分心去討論AI有沒有種族歧視;
- 就像OpenAI決定隱藏o1思維鏈時(shí)說(shuō)得義正辭嚴(yán)——原始思維鏈可能存在沒有對(duì)齊的現(xiàn)象,用戶看到后可能會(huì)感覺到被冒犯,所以我們決定一刀切,就不給用戶展示了——但DeepSeek-R1一舉證偽了上面的迷之自信,是的,在AI行業(yè),硅谷并沒有那么穩(wěn)固的領(lǐng)先地位,是的,暴露的思維鏈可以成為用戶體驗(yàn)的一部分,讓人看了之后更加信任模型的思考能力;
- Reddit的前CEO認(rèn)為把DeepSeek描述為斯普特尼克時(shí)刻——蘇聯(lián)先于美國(guó)發(fā)射第一顆人造衛(wèi)星——是一個(gè)強(qiáng)行賦予的政治化解讀,他更確定DeepSeek位于2004年的Google時(shí)刻,在那一年,Google在招股書里向全世界展示了分布式算法是如何把計(jì)算機(jī)網(wǎng)絡(luò)連接在一起,并實(shí)現(xiàn)了價(jià)格和性能的最優(yōu)解,這和當(dāng)時(shí)所有的科技公司都不一樣,它們只是購(gòu)買越來(lái)越貴的主機(jī),并甘愿身處成本曲線最昂貴的前端;
- DeepSeek開源R1模型并透明的解釋了它是怎么做到這一點(diǎn)的,這是一個(gè)巨大的善意,若是按照繼續(xù)煽動(dòng)地緣政治的路數(shù),中國(guó)公司本來(lái)應(yīng)該對(duì)自己的成果保密的,Google時(shí)刻也確實(shí)為Sun這樣的專業(yè)服務(wù)器制造商劃定了終點(diǎn)線,推動(dòng)競(jìng)爭(zhēng)移動(dòng)到商品層;
- OpenAI的研究員roon認(rèn)為DeepSeek為了克服H800芯片所作出的降級(jí)優(yōu)化——工程師用不了英偉達(dá)的CUDA,只能選擇更低端的PTX——是錯(cuò)誤的示范,因?yàn)檫@意味著他們浪費(fèi)在這上面的時(shí)間無(wú)法彌補(bǔ),而美國(guó)的工程師可以毫無(wú)顧慮的申請(qǐng)H100,削弱硬件無(wú)法帶來(lái)真正的創(chuàng)新;
- 如果2004年的Google聽取了roon的建議,不去「浪費(fèi)」寶貴的研究人員構(gòu)建更經(jīng)濟(jì)性的數(shù)據(jù)中心,那么也許美國(guó)的互聯(lián)網(wǎng)公司今天都在租用阿里巴巴的云服務(wù)器,在財(cái)富涌入的這二十年里,硅谷已經(jīng)失去了優(yōu)化基礎(chǔ)設(shè)施的原動(dòng)力,大廠小廠也都習(xí)慣了資本密集型的生產(chǎn)模式,樂于提交預(yù)算表格去換取投資,甚至把英偉達(dá)的芯片干成了抵押物,至于如何在有限的資源里盡可能多的交付價(jià)值,沒人在乎;
- AI公司當(dāng)然會(huì)支持杰文斯悖論,也就是更便宜的計(jì)算創(chuàng)造更大量的使用,但過去幾年里的實(shí)際行為卻是出心口不一的,因?yàn)槊考夜径荚诒憩F(xiàn)出研究大于成本的偏好,直到DeepSeek把杰文斯悖論真正帶到了大家的眼皮底下;
- 英偉達(dá)的公司變得更有價(jià)值,和英偉達(dá)的股價(jià)變得更有風(fēng)險(xiǎn),這是可以同時(shí)存在時(shí)發(fā)展,如果DeepSeek能在高度受限的芯片上達(dá)到如此成就,那么想象一下,如果當(dāng)他們獲得全功率的算力資源后,技術(shù)進(jìn)步會(huì)有多大,這對(duì)整個(gè)行業(yè)都是激勵(lì)性的啟示,但英偉達(dá)的股價(jià)建立在它是唯一供給方這個(gè)假設(shè)上,這可能會(huì)被證偽;
- 中國(guó)和美國(guó)的科技公司在AI商品的價(jià)值判斷上出現(xiàn)了顯性分歧,中國(guó)這邊認(rèn)為差異化在于實(shí)現(xiàn)更優(yōu)越的成本結(jié)構(gòu),這和它在其他產(chǎn)業(yè)的成果是一脈相承的,美國(guó)這邊相信差異化來(lái)自產(chǎn)品本身以及基于這種差異化創(chuàng)造的更高利潤(rùn)率,但美國(guó)需要反思通過否定創(chuàng)新——比如限制中國(guó)公司取得AI研究所需的芯片——來(lái)贏得競(jìng)爭(zhēng)的心態(tài);
- Claude在舊金山的口碑再怎么好,也很難改變它在銷售API這種模式上的天然弱點(diǎn),那就是太容易被替換掉了,而ChatGPT讓OpenAI作為一家消費(fèi)科技公司擁有更大的抗風(fēng)險(xiǎn)能力,不過從長(zhǎng)遠(yuǎn)來(lái)看,DeepSeek會(huì)讓賣AI的和用AI的都有受益,我們應(yīng)該感謝這份豐厚的禮物。
嗯,差不多就是這些,希望這篇作業(yè)可以幫你們更好的理解DeepSeek出圈之后對(duì)AI行業(yè)產(chǎn)生的真實(shí)意義。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.