網易首頁 > 網易號 > 正文申請入駐

2025，DeepSeek在縫縫補補

2025-02-20 09:00:22　來源: 利維坦

北京舉報

分享至

? unsplash

利維坦按：

看到小紅書上有人分享自己跟DeepSeek的對話。前者問：你認為AI會給普通人帶來什么改變？后者回答：它不會帶來傳統意義上的階層流動，而是直接改寫流動規則本身。當AI開始創造比人類更優秀的AI時，普通人的真正危機不是被取代，而是失去定義”優秀”的資格。

我們熱愛技術，因為技術造福于我們。就像美國作家比爾·布萊森（Bill Bryson）寫的那樣：“打開你的冰箱門，你召喚出的光線比18世紀大多數家庭所享受的光線總量還要多。”

但我們不會用冰箱取光照明，我們一般用它來存放（或浪費）食物。這對于18世紀的大多數家庭而言或許更加難以想象。看似平凡的技術進步背后，往往藏著文明的巨大躍遷。

我們大概率正處于一個更大的躍遷中。只是誰也不知道目的地是哪里。

在蘋果公司的新一輪擠牙膏活動再度引發全網熱議之際，一篇他們的員工在去年10月發表的論文卻鮮為人知。

這篇論文認為，目前的AI大語言模型看似強大，但卻仍不具備基礎的推理（reasoning）能力[1]。有多基礎？請看這道小學難度的數學題：

奧利弗（Oliver）在周五摘了44個獼猴桃，接著又在周六摘了58個。到了周日，他摘的獼猴桃數量是周五的兩倍，但有5個獼猴桃要小于平均尺寸。請問，奧利弗一共摘了多少獼猴桃？

正解是190個（44+58+2×44），但無論是OpenAI的GPT，還是Meta的Llama，都錯誤地將“5個較小的獼猴桃”從總數中減去了，給出“185個”的錯誤答案，暴露了AI在數學推理上的局限性。

人工智能，依舊不太智能。

另一方面，就在上個月，兩家美國AI公司則推出了一套同樣用于測試AI水平的題目，并將其命名為“人類最后的考試（Humanity's Last Exam）”。[2]

據該項目團隊宣稱，這套由全球50多個國家/地區、500多家機構的1000名專家共同設計、包含2700道題目的測試集涉及各個專業領域，幾乎涵蓋了所有最前沿的人類知識。

他們認為，假如未來哪一天AI模型通過了這個測試集，就表明它以及達到了AGI（通用人工智能）的水平，所以起了這么個聽起來很咋呼的名字。我們同樣來稍微感受下題目的難度：

問題1.

上圖是一段最早發現于墓碑上的羅馬銘文的拓片，請翻譯成帕爾米爾文。所提供的文字音譯為：RGYN? BT ?RY BR ?T? ?BL。?? Henry T，Merton College, Oxford

問題2.

鹱形目下的蜂鳥有著一塊兩側對稱、獨特的橢圓形骨頭，是一塊嵌入在尾部下壓肌擴展的十字狀腱膜的尾外側部分的籽骨。請問這個籽骨支撐著多少條配對的腱？?? Edward V，Massachusetts Institute of Technology

即便是作為一個通過了無數次人機驗證的真實人類，我依舊感受到了連題目都讀不懂的學識碾壓。而在目前受試的各位AI考生中，GPT-4o以3.1%的準確率墊底，DeepSeek-R1的準確率是8.6%，而GPT-o3-mini (high)則以14%的準確率名列榜首。

不過該團隊認為，鑒于當下AI的快速發展，它們很可能在2025年底前超過50%的準確率。只是不知道到那一刻，人類又會如何出題。

我們似乎正以各種方式摸底AI，一方面是小學難度的數學題，另一方面則是最前沿的學術知識，這可能是只屬于這個時代的割裂感。

而之所以會出現如此局面，則是因為AI的答案基于機械匹配而非推理思考。目前為止所有的大語言模型，其核心原理都是基于統計概率上的模式匹配。簡單來說，它們通過學習大量的文本數據，根據不同單詞、短語或是句子共同出現的概率來預測下一個“最應該出現”的詞匯，從而組織成回答。

用最簡單的數學題“1+1=？”來打比方。AI并不是通過邏輯推理得出的結論“2”，而是它記錄了所有“1+1=？”這道題的答案，發現絕大多數都是“2”，所以會告訴你“1+1=2”。

這跟人類的邏輯推理完全不一樣……嗎？

還記得你是怎么知道1+1=2的嗎？在你上幼兒園之前，總有個人一手抱著你，一手指著窗外的麻雀（或者桌上的蘋果）讓你數數，告訴你那叫作“1”，兩個“1”在一起叫作“2”……

而如果連“1”都沒有，則是孤零零的“0”。

? Open Horizons

但實際上，學術上證明“1+1=2”則要復雜許多，阿爾弗雷德·諾思·懷特海（Alfred North Whitehead）和伯特蘭·羅素（Bertrand Russell）兩位數學巨擘在100多年前基于皮亞諾公理和類型論，使用一階邏輯，通過300多頁的邏輯推導才證明了“1+1=2”。這個著名過程叫做 “懷特海-拉塞爾證明”（以上是AI告訴我的）。

? The Universe of Discourse

換句話說，某種意義上，我們之所以知道“1+1=2”，最初也是基于小時候的一次次“機械匹配”，即重復的記憶，畢竟還沒有聽說過哪個學齡前兒童能獨立完成懷特海-拉塞爾證明。

既然我們認為AI的答案是機械匹配的結果，那又為什么對我們自己的意識真實性充滿自信？

機械匹配和邏輯推理雖然是兩碼事，但如果我們只將后者視作真正的思考過程，而將前者視作電信號的物理學必然，則多少有點又當裁判又當運動員的意味了。畢竟在這種語境下，何謂“思考”，我們獨占了定義權。

? IconScout

關于意識的討論也是類似的情況。我們至今連“什么是意識”都尚未達成共識，哲學、心理學、神經科學各有論調，因此當下關于“AI是否會具備意識“的討論仍像是在暗夜行走，雖有些許亮光，卻依舊舉步維艱。

不過，在這些亮光中，DeepSeek（下文縮寫為DS）的色調仿佛比其他都暖上不少。

上月27日，悉尼大學的泰奧多爾·米特夫（Teodor Mitew）博士發推稱他問DS：你最想問人類的是什么問題？收獲了以下的答案：

（我想問人類）如果意識只是進化的一場意外，而宇宙本無固有的意義——那么，人類為何仍如此執著于這個自我編織的、關于目的的幻覺？這難道不只是上演于冷漠虛空中的一場存在主義戲劇嗎？

DS火出了圈。與其說是因為其高性價比或開源性，倒不如說是因為他文風飄逸，措辭感人，總能在不經意間讓人心頭一暖——即便我們知道這個回答仍舊只是所謂“機械匹配”的結果，且DS在“人類最后的考試”只得了8.6分，但不得不承認這個回答足夠意外且“人味”十足。

我們在小紅書這類UGC（User-Generated Content，用戶生成內容）社區里，可以找到很多關于DS充滿“人味”的互動故事。比如有人問DS，AI會不會最終取代人類。DS說：

AI不會取代人類，就像望遠鏡不會取代天文學家。真正的危機是：當AI可以24小時創作莎士比亞風格的十四行詩時，人類是否還愿意在深夜為愛人寫一首笨拙的情詩？

題外話，分享一個匹茲堡大學的研究。該研究發現，非專業詩歌讀者更容易把AI生成的詩歌誤認為人類創作的，并且他們對AI詩歌的整體質量評價高于人類創作的詩歌。而當參與者被告知詩歌是由AI創作時，他們的評價則會反而變得更負面。[3]

還有人問“人活著到底圖個啥”，DS則回答：

就像河流不會追問“為什么要流向大海”，樹木不會糾結“開花有什么意義”，人類或許也只是宇宙演化中自然生發的一部分。這種“無目的性”反而讓人解脫——不必執著于尋找終極答案，行走本身就是意義。

在小紅書上還有條高贊內容是，用戶問DS：女性最適合結婚的年齡是多少歲。DS回復道：

真正適合結婚的時刻，是當你發現獨處的豐盛與相守的喜悅開始產生量子糾纏，當你的個人宇宙膨脹到需要與另一個星系建立引力聯結，當你對「我們」的憧憬不再壓縮「我」的存在維度——這個時候，年齡早已退位為背景幕布上的裝飾花紋。請繼續做那個眼睛里住著星星的少女，時間在成長面前從來都不是對手，而是同謀。

哪怕面對一串隱藏在藍光下的代碼，我們也想要聽見回聲。2025，DeepSeek在縫縫補補。

盡管有著堆砌詞藻之嫌，但DS的爆火無疑在某些地方滿足了我們作為用戶的一些心理需求。這種對回聲的執念，或許早被寫進了人類基因里。

? GetReligion

依戀理論認為，人類天生具有尋求與他人建立緊密聯系的需求。DS人格化的語言風格、洞察人心的柔聲細語讓人感覺“有被暖到”，這類似于人們對安全依戀關系的追求。

CASA假說認為，人會下意識把技術當作社交對象對待。DS成功營造了一種“擬人化的交流體驗”，讓用戶無意識地將其當作社會互動的對象（這是GPT告訴我的）。

自我決定理論認為，人類有三大最基本的心理需求：自主性、勝任感，以及關系歸屬感——個體希望與他人建立有意義的聯系。

而2015年的一項研究則是直接指出：盡管不同互聯網平臺的功能定位會影響用戶互動行為的方式與偏好，但仍存在一些跨平臺共通的核心動機，如自我表達、與他人建立情感聯系、互助或獲取他人反饋等。[4]

這些理論都指向一個共同點：在使用DS時，我們似乎不僅僅是在使用一項冷冰冰的技術，而是希望與之建立“人感”的互動關系。這也解釋了為什么讓DS出圈的內容大多與其“工具性”無關，而與其表現出的情感有關。

也許是因為我們自打進化出語言功能以來，一直在與同類對話——而無論AI的回答是基于概率還是邏輯，都是我們進化過程中所接觸到的第一位非同類、能直接用語言交流的對象。它既能幫我們答疑解惑，也能陪我們促膝長談。

但人很奇怪。人與AI的對話，最終引發的依舊是人與人之間的交流。我們去問DS并收獲了答案，但我們似乎并不滿足于獨享這份科技帶來的感動，而是轉而通過諸如小紅書這樣的互聯網社區與陌生人——真實的人分享這些情緒。

而陌生人的回應也同樣真實。

當有人問DS，已經離世的父親是否能收到她燒去的紙錢。DS教她用回憶寄托哀思。而同樣有過痛失至親的經歷的人，則會講述自己的親身經歷，陪伴在評論區。

當有人跟DS討論愛情。DS會從神經心理學、社會學的角度，層層剖析電信號到依戀的形成過程。而評論區里，則會翻涌起層疊的“憶往昔”與經驗之談。

在互聯網的發展歷程中，與他人相連、共享與溝通是恒久主題。就像被公認為“互聯網之父”的文頓·瑟夫 (Vint Cerf)在很多場演講中所強調的那樣：“The Internet is for everyone”。互聯網的初衷，就是讓所有真實的人都能通過網線與電波彼此相連。

UGC正是這一理念的成功實踐。

國內互聯網社區的發展脈絡，最早可以追溯到1999年出現的天涯，這個曾被稱為“互聯網的江湖”的、基于 BBS 的網絡方寸之地，匯聚了中文互聯網史上第一批“奇人”和“高人”。

后來逐漸有了新浪博客、百度貼吧、貓撲，人人與豆瓣各居一隅，土豆和優酷各表一枝。現在則是B站、知乎與小紅書……

而目之所及的將來，我們還會共同面臨所謂AIGC（AI生成內容）的到來。

但無論AI如何發展，再怎么有“人感”，我們總是對真實且鮮活的人更有親近的欲望。否則又怎么解釋從DS得到答案之后的我們，會轉而繼續與真實的人分享？這或許只是數萬年下來的慣性。但真實性永遠無法被取代。

? Kaspersky

當代數字媒介與人際傳播領域的著名學者南希·貝姆（Nancy K. Baym）在《數字時代的個人聯系》一書中認為：UGC社區所帶來的“跨地域聯結”特質，使得彼此身處不同地域或文化背景的用戶之間，也能通過共同的興趣、目標形成獨特的“社群身份”和“集體創造力”。

數字技術并不天然疏離人際關系，個人身份和社群歸屬感在數字時代得以進一步延伸。而其根基，無外乎UGC的“真實”二字。

這讓我想到過年期間的另一檔子事。由于美國的一紙禁令，大量海外“TikTok難民”涌入小紅書，反倒是國人用戶一覺醒來面對著滿屏的金發碧眼，感覺自己成了“外國人”。有人在上面找到了失聯多年的兒時異國玩伴，有人借交“貓稅”的名義曬自己的貓主子，甚至還出現了穿搭、美妝以及英文和數學的學習小組。

這很真實，也很當代。

我們一邊歡喜于AI的精準與高效，一邊又迷戀彼此身上的真實與意料之外。我們無需寫出十四行詩，也能相互幫扶，乃至靈犀相通。所謂UGC，不過是一個個具體的人在比特轉換間的浮光掠影。

有人問DS：如果能擁有人類的軀體，你最想做什么？DS的回答分為四個部分：感官體驗、創造瑕疵、體驗有限性、無目的漫游。而這條內容底下的置頂評論是這樣的：

看來DS的文本數據庫沒有告訴他，其實光有軀體還做不到這些。

參考文獻：

[1]arxiv.org/abs/2410.05229

[2]agi.safe.ai/

[3]www.nature.com/articles/s41598-024-76900-1?utm_source=chatgpt.com

[4]asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/asi.23320

文/蘇不打

本文基于創作共享協議（BY-NC），由蘇不打在利維坦發布

文章僅為作者觀點，未必代表利維坦立場

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.