帶有推理能力的生成式大語言模型的出現,驗證了測試階段運算擴展(Test-Time Compute Scaling)的潛力,顯著提升了模型在特定領域的表現。同時,DeepSeek-R1的推出,則讓更多中國人接觸并開始使用大語言模型。
大語言模型獨特的交互方式和內容生成模式,與社會科學和外部世界的互動方式頗為相似。而技術競爭中的地緣政治壓力與焦慮,又引發了一系列相關政策的調整和輿論討論。在此背景下,社會科學(以下簡稱“社科”)部門的壓縮似乎波及世界范圍內的頂尖大學和研究機構,出現了短時間大幅度的“休克式壓縮”。
本文想強調另外一種可能性:即使在短期內沒有出現基于生成式模型的超級智能,現有“中等水平”AI模型缺乏反思的大規模應用也會給社會帶來大量沖擊。這些沖擊本身是社科可以也需要介入的。與此同時,社科領域同樣會受到中等水平AI的沖擊,原有的發展空間被壓縮,削弱了它建設性介入AI應用的能力。單純的休克式壓縮無法解決社科與AI沖擊的適配問題,我們迫切需要啟動變革科研評價體系和教育模式的深入討論。
什么是中等水平AI
一些觀點認為,現有的模型在訓練擴展法則上已經碰壁,單純地擴大模型的規模沒有辦法很快地導向超級智能。比如,法國計算機科學家楊立昆(Yann LeCun)堅持認為,現有的“下一個詞元預測”(next-token-prediction)訓練出來的模型并沒有真正具備推理能力,需要轉換模型的構建范式。OpenAI前首席科學家伊爾亞·蘇茨克維(Ilya Sutskever)在最近的一次演講中則認為,預訓練范式迄今為止已經幾乎窮盡了互聯網上的所有公開數據,模型很難實現像GPT2到GPT3那樣的性能飛躍。事實上,OpenAI最新的模型GPT4.5相對于GPT4而言,在很多評測中水平的提升有限,這也是為什么研究者開始把注意力轉向了諸如GPT-o1和DeepSeek-R1這樣在“測試階段運算擴展”的推理模型。但這些模型距離通用人工智能尚有距離,更不用說全面超越人類并且擁有自己的目標和意志的超級人工智能了。
一方面,在新的模型訓練范式出現之前,我們可以將現有的這種人工智能系統稱為中等水平人工智能。它指的是,在傳統的判別式的機器學習模型之外,具有以下特點的機器學習模型系統:在某些能力上已經達到甚至超過了普通人的水平,但還沒有成為通用人工智能;具有一定的泛化能力,但在具體的專業知識上還需要進行大量的調適;對于因果關系只有機械的理解,在一些簡單的問題上還是會出現幻覺。現有的很多AI系統,幾乎都達到了中等水平AI的下限。
另一方面,不需要等到一個超級AI的降臨,在缺少反思的情況下,僅僅是廣泛應用中等水平AI,就足以對人類社會造成一系列的巨大沖擊,并使得中等水平AI停留在這些層次上。
中等水平AI的社會沖擊
同生成式AI可以帶來信息平權的設想不同,對于中等水平AI的使用更有可能會造成進一步的信息過載。這是我們在當下的日常經驗中就能感受到的:我們已經開始見證互聯網內容質量的大規模下降。生成式模型已經開始被用于生成垃圾內容,甚至開始被用于制作虛假信息。這些信息又有很大的機會進入之后的模型訓練過程。有效信息的獲取可能會變得越來越困難。
中等水平AI會帶來新形式的數字不公平。接入模型機會的不同,會影響用戶可能的社會經濟機會。模型的能力越強,要求的算力越高,這樣的數字不平等可能越顯著。同時,中等水平AI也會帶來新形式的算法歧視。在傳統的判別式AI中,算法歧視往往可以追溯到訓練數據的不均衡或者預測目標設置的不合理。但生成式模型的訓練涉及龐大的訓練數據和模型參數,使得這種追溯變得不再可能。此外,在普遍接入生成式AI的情況下,我們可能會遇到一些意料之外的后果。在某些方面過度地依賴AI,可能會導致人類在某些方面的主動性下降,從而反過來影響人對于生成式AI的輸出進行驗證(Validation)。
中等水平AI對于現有人類勞動力市場的沖擊并不會是一種簡單的替代關系。專注數據挖掘的公眾號“城市數據團”在《大模型正改變勞動力市場,以未曾設想的方式》一文中指出,特定崗位的技能AI暴露程度越高,市場對于這些崗位的需求反而有所增多。同時,這些崗位的職責也變得更加多樣。比如,在模型代碼能力急劇增強的情況下,程序員和產品經理的職責會更加混合。中等水平AI對于通用技能的要求變得更多,而不是更少。但相比于產業變化的靈活性來說,人力資本是相對剛性的,就業市場難免會經歷一場陣痛。
“幻覺”問題在中等水平AI系統中并沒有得到根本性解決,大量使用AI替代人工,改造現有的信息系統,并將中等水平AI加入其中,會帶來一系列相關風險。比如,最近興起的機器編程和氛圍編程(vibe coding),在沒有進行代碼審查和充分測試的情況下,可能會在系統中遺留大量的缺陷(bug)和技術債務。
簡而言之,中等水平AI系統的應用和構建并非一個單純的工程問題,而是一個系列的社會—技術問題(sociotechnical is-sue)。這些問題本就涉及社科研究和教育可以也應該介入的諸多維度。
中等水平AI沖擊下的社會科學
社科研究本身也無法免于上述沖擊。同一般的信息過載類似,生成式AI模型的大規模應用會進一步沖擊同行評議等既有的科研評價方式。在現有指標導向的學科建設驅使下,中等水平AI不一定會增加社科學者的創造力,但一定會增加他們整體的產文數量和投稿數量,從而給被認為是學術質量黃金標準的同行評議造成系統性的壓力。這個問題在世界范圍內已經初見端倪:重要的國際科學文獻出版公司愛思唯爾(El-sevier)旗下期刊中,已多次發現殘留有生成式語言模型的提示詞,《自然》(Nature)雜志更是在近日專文討論了相關的議題。
同樣,在社科內部,對于不同技術水平的生成式AI的獲取和接入,也會造成學科內部的不平等。目前處于金字塔頂端的院校會有更多資源,接入對于算力和工程技能要求更多的生成式AI系統,甚至訓練他們自己的專有模型,從而進一步地擴大院校之間的不平等。
依賴生成式AI完成各種工作,將最基礎的閱讀、程序編寫、寫作,甚至核心的發現環節都交予生成式AI,同樣會使得社科研究者的基礎能力下降,反過來影響他們對于生成式AI輸出的合理判別。
對于社科的具體研究來說,雖然中等水平AI還沒有能力取代嚴肅的社科研究者,但這些研究者面臨的“貶值”卻是真切的。因為生成式模型同大眾的交流方式與社科的產出有形式上的類似,出現了不少貶低社科和其他文科的輿論。同這種輿論相呼應的是,世界范圍內出現了社科和相關人文學科的收縮。
在這種情況下,“AI+”的模式被普遍認為是解決社科困境的方式。但當下“AI+社科”,還僅僅停留在一個應用外來技術的單向模式上。大規模地轉向是否會導向諸如將計算機學科不合格的研究者改頭換面轉向社會科學的情況?本來應該提供基準知識的社科研究和教育,很可能出于以上種種原因,反而遭遇研究和教育水平的進一步下降,影響對于相關議題的介入和影響能力。
尋找新的實踐模式
面對中等水平AI對于社會和社科的挑戰,我們需要探索社科新的實踐和教育模式。現在社科的很多問題并不完全是技術沖擊所引起的,但技術的沖擊依然是真切的。我們需要尋找一種不再“唯發表”,但又保持嚴肅的學術實踐形態。從最理想的情況來說,不必要的發表不應該再成為壓力,研究者不再需要把自己的思考拆散成最小發表單元,而是專心在教學和少量能夠真正推進嚴肅學術對話的代表作上。與之相應的是,大量的研究和教學活動應該采取課堂教學以外的新的組織形式,比如項目式學習、服務學習,甚至工作坊和編程馬拉松(hackathon)等形態。為學生提供新的技能和視野,保留和提升他們提出問題的能力,也讓他們能夠同中等水平的人工智能相匹配。
無論如何,休克式的壓縮沒有辦法實現這種社會科學實踐的新模式,因為這種壓縮大概率也會遵循現有的指標導向的學術評估的邏輯。我們需要一場有不同意見的公共討論,也需要在不同院校結合各自情況進行具體的試驗。要摸著石頭過河,而不是將“AI+社科”視作一發萬能的銀彈。
(作者系浙江大學社會學系“新百人計劃”研究員)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.