Common Sense Is All You Need
“常識就是你需要的一切”
https://arxiv.org/abs/2501.06642
摘要
近年來,人工智能(AI)取得了顯著進展,但在所有動物都具備的一種基本認知方面仍然存在挑戰:常識。包括那些為復雜任務(如自動駕駛)、問題解決挑戰(如抽象推理語料庫(ARC))以及對話基準(如圖靈測試)設計的當前AI系統,往往缺乏在沒有廣泛先驗知識的情況下適應新情況的能力。本文認為,將常識整合到AI系統中對于實現真正的自主性以及釋放AI的全部社會和商業價值至關重要。
我們提議改變知識獲取的順序(ordo cognoscendi),強調開發從最小先驗知識出發并能夠進行情境學習、適應性推理和體現的AI系統的重要性——即使在抽象領域也是如此。此外,我們強調需要重新思考AI軟件棧,以解決這一基礎挑戰。
沒有常識,AI系統可能永遠無法達到真正的自主性,而是表現出漸近性能,接近理論理想如AIXI,但由于無限的資源和計算需求,在實踐中仍然無法實現。
雖然擴大AI模型規模和通過圖靈測試等基準測試在不需要自主性的應用程序中帶來了顯著進步,但僅靠這些方法不足以實現具有常識的自主AI。通過重新定義現有的基準和挑戰,以實施需要真正常識的約束,并通過擴大我們對體現的理解,包括物理和抽象領域,我們可以鼓勵開發更好地處理現實世界和抽象環境復雜性的AI系統。
這種方法與AI研究的最終目標一致,并確保投資有助于可持續和有意義的進步。
關鍵詞:人工智能 · 常識 · 自主性 · 體現 · AI軟件架構
1 引言
1.1 背景和動機
人工智能取得了顯著成就,從掌握復雜游戲到啟用語音激活助手。然而,盡管取得了這些進步,AI系統往往缺乏常識——所有動物都能理解和推理世界的能力。這種缺陷在動態現實世界環境中運行的自主代理中尤為明顯,例如自動駕駛汽車、機器人助手和對話系統,以及在抽象問題解決任務如抽象推理語料庫(ARC)挑戰中。
例如,雖然AI驅動的車輛可以使用廣泛的傳感器數據和映射來導航預定義路線,但它們可能難以應對需要適應性決策的意外障礙或新場景。同樣,解決解決問題挑戰的AI系統在很大程度上依賴于廣泛的訓練數據,限制了它們在編程知識之外進行泛化和推理的能力。即使是通過圖靈測試的AI系統,能夠進行類人對話,也可能缺乏真正的理解和常識推理。
AI中缺乏常識不僅妨礙了性能,還帶來了安全風險,并阻礙了真正自主性的實現。隨著AI系統越來越多地融入社會,解決這一問題變得越來越關鍵。所有動物都表現出生存所必需的常識,通過與環境的互動展示基本智能。這一觀察結果證明了將常識整合到智能系統中既是必要的,也是可實現的。
近期專家觀點:
人工智能和深度學習領域的先驅,2018年ACM A.M. 圖靈獎(計算機科學領域最負盛名的獎項)得主Yann LeCun,最近通過指出“人工智能系統仍然缺乏貓的一般常識”來強調當前AI系統的局限性。雖然將AI描述為“比貓更笨”取決于如何定義智能,但我們同意其背后的觀點,即貓和一般動物擁有當前AI所缺乏的常識。這種比較強調了AI能力與即使是認知能力相對簡單的動物所表現出的直觀理解之間的差距。
通過承認該領域最杰出專家之一的這一觀點,我們強調了在AI發展中關注常識的重要性。盡管深度學習領域取得了重大進展——這一領域在很大程度上是由Schmidhuber、LeCun、Geoffrey Hinton、Yoshua Bengio和其他許多杰出人物塑造的——但AI在復制動物所表現出的常識方面仍存在根本性的差距。
1.2 實現自主性需要常識
本文的中心論點是,常識是AI達到真正自主性和與人類及動物智能相當的功能性所需的一切。我們斷言:
? 當前AI方法不充分:
- 許多AI開發工作流程缺乏整合常識的重點,導致適應性和理解力受限。
- 基于這些方法構建的AI系統可能表現出性能提升,但最終會達到一個平臺期,無法實現真正的自主性。
? 向理論理想的漸近行為:
- 沒有常識,AI系統可能接近理論構造如AIXI[3]——一個假設的最優代理,但從未真正達到實際自主性。
- AIXI需要無限的計算資源和時間,使其在現實世界中無法實現。
- 當前的AI路徑可能導致收益遞減,為邊際收益需求不斷增加的資源。
? 專注于常識是必不可少的:
- 通過整合常識,AI系統可以適應新情況,做出直觀決策,并在沒有詳盡計算需求的情況下自主運行。
- 這種關注使AI開發與人類和動物所展現的實際能力保持一致。
1.3 需要重新思考AI軟件架構
在認識到當前人工智能系統在實現真正自主性方面的局限性時,我們意識到可能需要重新思考用于人工智能開發的整個軟件棧。傳統的軟件架構通常并非旨在容納常識推理的整合。這一認識具有挑戰性,因為它需要我們脫離既有的方法論,并對根本性的新方法持開放態度。然而,為了開發出能夠可靠且自主運行的人工智能系統,重新設計軟件棧以支持常識整合可能是至關重要的。
我們的方法質疑僅在現有框架內進行漸進式改進是否足夠。我們提出,實現真正的自主性可能需要對人工智能軟件架構進行根本性的重新設計,以納入能夠實現上下文學習、適應性推理以及物理和抽象意義上的具身化的機制。這種轉變可能涉及整合來自認知科學、神經科學以及其他學科的概念,以構建學習和推理方式更接近生物智能的系統。
1.4 本文的目標
本文的主要目標是:
詳細定義常識:
- 在人工智能的背景下,提供對常識的全面定義,強調其組成部分,如上下文學習、適應性、從最少的先驗知識開始,并指出其在所有動物中普遍存在。
- 引入一個更廣泛的概念——具身化,它不僅適用于物理交互,還適用于抽象領域,例如像ARC挑戰這樣的問題解決任務。
分析當前問題和方法:
- 考察現有的基準測試,如ARC挑戰、圖靈測試和自動駕駛級別,指出它們在測試和開發人工智能系統中的常識方面存在不足。
- 討論當前人工智能開發路徑如果不整合常識,可能永遠無法實現真正的自主性,反而會需要不切實際的資源。
納入專家見解:
- 引用人工智能領域的領導者如Yann LeCun和Eric Schmidt的觀點,強調當前人工智能系統與動物智能相比的已知局限性,并回應有關自我改進人工智能的擔憂。
提出開發重點的轉變:
- 主張開發以常識為重點的現有問題變體的重要性,認為在這些更具挑戰性的任務上取得部分成功,比在不真正測試常識的任務上取得完全成功更有價值。
- 倡導重新思考人工智能軟件棧,以更好地支持常識的整合。
回應理論上的反駁:
- 討論理論上的挑戰,例如“沒有免費午餐定理”,并展示如何通過將問題空間限定在明確定義的領域來緩解這些限制。
提供可操作的建議:
- 為人工智能社區提供實際步驟,以重新設計基準測試、開發新的評估指標,并促進跨學科合作,以優先發展人工智能中的常識。
2 定義人工智能中的常識
2.1 常識的詳細定義
在人工智能中,常識是指一個系統能夠以靈活、情境化和適應性的方式理解、學習和推理世界的能力,就像人類和動物所做的那樣。其關鍵組成部分包括:
通過涵蓋這些組成部分,人工智能中的常識使系統能夠在復雜的動態環境中(無論是物理環境還是抽象環境)有效運行,展現出類似于人類和動物認知的靈活性和理解力。
2.2 超越物理世界的具身化
盡管具身認知傳統上指的是與現實世界的物理互動,我們提出一個更廣泛的概念——具身化,它包括在抽象或虛擬領域的互動。在這個背景下,具身化表示人工智能系統通過感知和行動與任何環境(物理的或抽象的)進行互動的能力。
通過擁抱物理和抽象兩種形式的具身化,我們擴大了人工智能系統在多樣化情境中獲取常識的潛力。這種泛化對于像ARC挑戰這樣的任務至關重要,在這些任務中,物理具身化并不適用,但認知具身化卻發揮著重要作用。
2.3 所有動物都表現出常識
重要的是要認識到,常識并非人類所獨有;所有動物都表現出對其生存至關重要的常識。動物的常識是指它們與生俱來和后天習得的行為,使它們能夠:
支持這一觀點的專家觀點:
Yann LeCun認為“人工智能系統仍然缺乏貓所具有的普通常識”,這突顯了人工智能與基本動物智能之間的巨大差距。LeCun與Geoffrey Hinton和Yoshua Bengio一起因在深度學習領域的開創性工作獲得了2018年ACM A.M.圖靈獎,這些工作推動了人工智能的許多最新進展。盡管取得了這些進步,LeCun仍然強調人工智能系統仍然缺乏使動物(如貓)能夠有效與現實世界互動的常識。
3 當前人工智能基準測試的局限性 3.1 對ARC挑戰的分析
抽象與推理語料庫(ARC)是一組旨在評估人工智能系統抽象概括和推理能力的任務。盡管其目標是超越模式識別,邁向認知推理,但其在測試真正常識方面仍存在若干局限性:
3.2 案例研究:全自動駕駛(FSD)與 SAE 等級
全自動駕駛(FSD)車輛的開發提供了一個實際案例,展示了未優先考慮常識所帶來的局限性。
理解 SAE 自動駕駛等級:
等級 1 至 等級 4:
AI 系統缺乏常識,無法完全獨立處理所有可能的場景,因此仍需遠程協助。
車輛可以在特定條件或限定區域內無駕駛員運行。
可能需要遠程人工干預以應對邊緣情況或意外情況。
具有不同程度的自動化,但在特定情況下仍需人為干預。
- 等級 1-3:
- 等級 4:
- 局限性:
等級 5(完全自動駕駛):
若不整合常識,實現等級 5 是無法達到的。AI 系統可能會持續改進,但最終仍會遇到瓶頸,因缺乏常識推理而無法真正實現完全自主。
目標是在所有環境和條件下完全無需人為干預或遠程協助地運行。
- 挑戰:
- 處理不可預測的情況:
- 常識有助于理解細微的上下文線索
,例如識別非典型的人類手勢、意外障礙物和復雜的道路狀況。
具有常識的 AI 可以在邊緣情況下自主決策,而無需人工協助,從而更接近真正的自動駕駛。
具備常識的 AI 系統能夠從以往經驗中進行泛化,以應對新的和無法預見的情況。
- 問題:
開發過程可能假設漸進式改進最終會自然實現完全自動駕駛,但缺乏明確的常識整合策略。
- 風險:
這種方法導致 AI 系統無法突破 4 級自動駕駛的能力瓶頸,無論投入多少資源或計算能力。
漸近行為與資源限制: AIXI 類比:
AIXI 是一個理論上的最優決策代理模型,但由于需要無限計算資源,無法實際實現。
如果不整合常識,追求自動駕駛可能會導致 AI 需要指數級增長的計算資源,卻只能獲得遞減的性能提升。
FSD 領域中 AI 系統缺乏常識,說明必須直接解決這一核心問題。否則,無論投入多少資源,真正的 5 級自動駕駛都無法實現。
3.3 “奇跡發生在此”現象
在 AI 開發流程中,往往隱含假設,即某些復雜能力(如常識推理)會隨著漸進式改進自然出現。這導致了一個關鍵問題:
未定義的流程:
- 描述:
從當前能力提升至完全自動駕駛的路徑中,缺乏具體的常識整合計劃。
- 影響:
開發者可能會執行多個開發步驟,但核心要素——常識,并未得到系統性的解決。
- 觀察:
AI 可能在初期取得進展,但最終會表現出漸近行為,即進一步提升需要投入不成比例的資源,卻收效甚微。
- 理論類比:
類似于 AIXI 理論代理,AI 可能在理論上趨近最優性能,但由于資源限制,仍然難以實現。
- 停滯:
- AI 系統可能會達到性能瓶頸
,如果不整合常識,進一步提升將變得微不足道。
- 資源誤投:
持續投資于未解決核心問題的方法,可能導致巨大的財務損失。
- 技術幻滅:
未能實現承諾的能力,可能導致利益相關者和公眾的懷疑。
- SAE 4 級的局限性:
依賴遠程人工干預,突顯 AI 無法獨立應對所有可能的場景。
- 需要根本性變革:
達到 5 級自動駕駛需要范式轉變,必須整合常識,而非僅靠漸進式改進。
- “奇跡發生在此”現象
強調了在 AI 開發流程中明確整合常識的重要性。
如果不解決這一基礎問題,AI 無法實現真正的自主性,也無法應對現實世界和抽象任務的復雜性,無論投入多少資源。
AI 規模擴展的成就:
通過大量數據、計算能力和復雜架構擴展 AI 模型,在不需要自主性的領域取得了重大突破,包括:
特定領域的增強性能:
- 自然語言處理(NLP):
大型語言模型(如 GPT-3、GPT-4)能夠生成連貫且符合上下文的文本,可用于翻譯、摘要、內容創作等任務。
- 計算機視覺:
先進模型在圖像識別、目標檢測、圖像生成等方面表現卓越,影響醫療成像、自動化檢測等領域。
- 醫療:
AI 輔助疾病診斷、醫學影像分析、個性化治療方案。
- 金融:
AI 促進欺詐檢測、算法交易、聊天機器人客服。
- 娛樂與媒體:
AI 算法個性化推薦內容,創作音樂,生成視覺特效。
盡管擴展規模帶來了顯著的 AI 能力提升,但單靠擴展無法實現自主性,其主要局限包括:
- 缺乏常識和理解能力:
規模化模型通常作為統計學習器運行,缺乏對上下文的真正理解,也無法適應未知情況。
- 無法在復雜環境中自主運作:
沒有常識的 AI 難以在動態、現實或抽象環境中做出可靠決策,而這對自主性至關重要。
- 依賴預定義數據:
規模化 AI 需要大量訓練數據,遇到超出訓練分布的場景時,性能可能下降。
3.4.1 AI 基準測試中性能瓶頸的證據
盡管 AI 規模化推動了顯著進步,但越來越多的證據表明,隨著資源投入的增加,性能提升趨于遞減。多個知名 AI 基準測試反映了這一現象:
- COCO 數據集目標檢測:
盡管模型和數據集規模持續擴大,但 COCO 數據集上的最佳模型 mAP(平均精度均值)在 65% 左右已停滯超過一年 [Papers With Code, 2025a]。
- UCF-Crime 監控視頻異常檢測:
UCF-Crime 數據集的 AUC(曲線下面積)已穩定在 87%,凸顯了當前方法在處理真實世界復雜性方面的局限性 [Papers With Code, 2025b]。
- ActivityNet-1.3 時序動作定位:
ActivityNet-1.3 基準測試的 mAP 過去一年維持在 11% 左右,未見顯著提升 [Papers With Code, 2025c]。
這些基準測試提供了當代 AI 系統趨于漸近行為(Asymptotic Behavior)的具體證據。盡管計算資源和數據規模大幅增長,性能提升已進入瓶頸期,表明單純依賴擴展的收益正在遞減。
這一停滯現象并不局限于特定基準測試。行業領袖(包括埃隆·馬斯克)指出,AI 領域已基本耗盡高質量訓練數據的供應,進一步限制了擴展的潛力 [Wiggers, 2025]。如果不引入常識推理等創新方法并提高數據利用效率,AI 系統將難以突破這一瓶頸。目前的模型在預定義環境下表現優秀,但難以泛化到未知場景——這一核心挑戰必須解決,才能推動 AI 取得新的突破。
整合常識以實現自主性的必要性
- 釋放真正的社會與商業價值:
結合常識的自主 AI 才能釋放其在社會和商業中的全部潛力。
諸如完全自動駕駛、機器人助手、智能代理軟件等應用,需要 AI 具備理解、適應并獨立安全決策的能力。
- 可靠且值得信賴的自主性:
- 提升信任度與普及率:
常識的融入確保 AI 行為符合道德規范,并與人類價值觀一致。
具備自主性且可靠的 AI 系統更容易贏得用戶信任并實現廣泛應用。
- 用戶信心:
- 倫理與安全決策:
- 互補性努力:
規模化仍能提升 AI 在非自主性應用中的能力,但整合常識才是實現自主性的關鍵。
- 戰略性投資:
資源應不僅用于擴展,還應投入到整合常識的研究與開發,以解決 AI 自主性面臨的核心挑戰。
設定現實預期:
- 明確認知:
認可規模化能夠帶來先進能力,但僅靠規模化本身無法實現自主性,這有助于引導 AI 領域關注真正需要解決的問題。
規模化在無需自主性的 AI 應用中取得了重大進展,并帶來了顯著的社會和商業價值。然而,要釋放 AI 的真正潛力,特別是在需要可靠和可信賴自主性的應用中,整合常識至關重要。認識到規模化在實現自主性方面的局限性,使我們能夠將努力方向調整到這一核心挑戰上。
3.5 圖靈測試與自主性的誤解
理解圖靈測試及其重要性:
圖靈測試由艾倫·圖靈在其 1950 年開創性的論文《計算機器與智能》中提出,是人工智能領域的基礎概念。該測試評估機器是否能夠展現出與人類無法區分的智能行為。在經典定義中,如果一位人類評估者與一臺機器和一名人類進行自然語言對話,卻無法可靠地區分出哪一個是機器,則該機器被認為通過了測試。
圖靈測試的優勢:
- 歷史重要性:
圖靈測試是對機器智能的最早操作性定義之一,為 AI 研究提供了一個具體目標。
- 促進自然語言處理發展:
該測試強調語言作為智能的媒介,推動了自然語言處理和理解的進步。
- 激發哲學與倫理討論:
它引發了關于意識、本質智能以及創造模仿人類行為的機器的倫理影響的討論。
- 人類式交互的基準:
圖靈測試為機器設定了高標準,要求其能夠進行流暢且符合語境的對話,反映出語言使用的復雜性。
- 鼓勵泛化能力:
機器若想通過測試,必須能處理廣泛話題并適應突發性問題,這體現了一定程度的通用智能。
- 易于理解與應用:
該測試簡單易行,因而成為一個長期流行的 AI 評估基準。
盡管圖靈測試具有重要影響,但它并未涵蓋本論文所定義的自主性,也無法保證 AI 擁有常識:
- 關注模仿而非理解:
圖靈測試評估的是機器模仿人類對話的能力,而非其像人類或動物一樣理解或推理世界的能力。
- 缺乏具身認知(Embodied Cognition):
通過圖靈測試并不要求 AI 需要與物理或抽象環境交互或理解這些環境,因此忽略了自主性中至關重要的具身性因素。
可能不依賴常識:
AI 可能僅依賴語言中的統計模式,使其看似智能,但并未真正具備上下文學習或自適應推理能力。
不評估決策與行動能力:
圖靈測試不考察 AI 是否能夠做出決策、執行行動或適應變化的環境,而這些對于自主系統至關重要。
對自主性進展的誤解:
通過圖靈測試可能會制造出 AI 逐步走向自主智能的錯覺,轉移人們對常識整合和真實世界理解的關注。
無法滿足現實與抽象應用需求:
通過圖靈測試的 AI 可能仍無法勝任需要環境交互、倫理決策和適應性的實際應用場景。
評估具身智能:
基準測試應考察 AI 在物理和抽象環境中的感知、行動和學習能力。
強調常識能力:
測試應關注 AI 是否具備上下文理解、自適應推理能力,并能從“白板狀態”(tabula rasa)開始學習。
盡管圖靈測試在 AI 發展史上具有重要價值,但它并不能衡量 AI 系統是否具備自主性或常識。認識到這一局限性,有助于研究人員和開發者將注意力轉向更相關的基準測試,以實現真正的自主性和常識整合。
4 正確的認知順序:聚焦常識
4.1 重新定義 AI 挑戰的解決方法
要實現 AI 系統的真正自主性,必須重新審視并定義我們解決 AI 挑戰的方法。傳統上,通過逐步提升 AI 能力而未明確整合常識的方法已被證明不足。因此,我們提倡一種范式轉變,從一開始就優先開發和評估 AI 的常識能力。
重新思考 AI 軟件架構:
基礎性重構:
考慮對底層軟件架構進行重新設計,以更好地支持常識整合。
借鑒認知科學和神經科學的原則:
利用生物系統如何處理信息的見解來指導 AI 設計。
構建具身認知系統:
發展既具備物理交互能力又具備認知能力的 AI,使其能與環境互動、學習和適應。
- 重新設計類似 ARC(Abstraction and Reasoning Corpus) 的基準測試:
強調最小化先驗知識:
修改 ARC 挑戰,使 AI 系統僅限于使用“假設知識”作為其先驗知識庫。
這強調 AI 需要通過推理和上下文學習來解決問題,而不是依賴大量訓練數據。
創建真正的“白板(Tabula Rasa)”場景:
確保 AI 系統在特定問題領域上從零開始。
這種方法模擬人類和動物如何在遇到新情況時依賴基本認知能力來適應和學習。
將常識整合到 FSD 研發中:
將重點從純粹的傳感器和數據驅動模型轉向包含上下文理解和自適應推理的模型。
強調與多樣化環境的交互:
發展能夠通過直接互動學習不同駕駛環境的 AI,使其能以類似人類的判斷處理突發情況。
避免過擬合和數據偏差:
限制先驗知識可減少 AI 生成只適用于特定數據集但無法泛化的新問題的風險。
促進真正的推理能力:
AI 必須依賴基本原則和認知過程來解決問題,從而發展真正的常識能力。
4.2 先解決更難的問題的優勢
雖然從更具挑戰性的問題入手可能看似違反直覺,但專注于以常識為核心的任務能帶來諸多重要益處:
促進深度理解:
質量優先于數量:
即使 AI 僅能部分解決復雜的常識性問題,也表明其已經發展出有意義的推理能力。
構建穩固的基礎:
這一方法確保 AI 的能力建立在基本理解之上,而不是單純的模式識別。
避免收益遞減:
關注常識的核心問題,可防止當前 AI 發展路徑中常見的性能瓶頸問題。
為真正的自主性鋪平道路:
通過及早攻克基礎挑戰,后續的進步可建立在堅實的基礎之上,從而實現更大規模、可持續的發展。
- 高效利用計算資源:
關注常識問題可減少對大規模數據集和極端計算資源的依賴,而這些資源在沒有基礎推理能力的情況下,往往難以帶來相應的提升。
- 降低財務風險:
將投資轉向發展常識能力,可避免因采用不充分的方法追求無法實現的目標而導致的重大損失。
應對對“無常識智能”的恐懼:
通過專注于整合常識,我們可以減少對智能系統行為不可預測或不道德的擔憂。
建立公眾信任:
展示對開發具備上下文理解和后果意識的 AI 的承諾,有助于改善公眾對 AI 的認知與接受度。
5 理論性反駁與解決方案
開發具備常識的 AI 系統面臨多個理論挑戰。然而,通過將問題空間約束在明確定義的領域內,并采用合適的策略,可以緩解這些限制。
5.1 應對“無免費午餐”定理 理解“無免費午餐”(NFL)定理:
- 定義:
在優化和搜索算法的背景下,NFL 定理指出,沒有單一算法能在所有可能的問題上都表現最佳。
- 對 AI 的影響:
該定理意味著,一個針對特定問題優化的 AI 可能在不同類型的問題上表現不佳,這對構建通用 AI 構成挑戰。
- 關注明確定義的領域:
通過將 AI 的問題空間限制在特定、可理解的領域(無論是物理環境還是抽象問題空間),可以降低 NFL 定理的適用性。
- 利用結構性規律:
許多領域表現出一致的模式和結構,AI 可以學習并從中泛化,提高性能。
- 可行性論證:
AI 不需要解決所有可能的問題,而應該在其設計領域內表現良好。
盡管 NFL 定理存在,人類和動物仍然能夠在其環境中有效地導航和推理,這表明可以開發出針對特定領域優化的智能系統。
- 生物系統作為證明:
- 專門化是可以接受的:
5.2 克服其他理論挑戰
框架問題(The Frame Problem):
- 定義:
指在推理關于行動和變化時,如何確定哪些信息是相關的,哪些可以忽略的挑戰。
- 通過具身認知(Embodied Cognition)來解決:
– 與環境的互動(物理或抽象):
通過直接與環境互動,AI 系統可以根據反饋和經驗學習識別相關因素。 – 情境學習:
持續學習使得 AI 能夠更新其在各種情境中對相關內容的理解。
資格問題: ? 定義: – 難以明確指定某個行動達到預期效果所需的所有前提條件。 ? 通過自適應推理解決: – 從經驗中學習:
AI 系統可以通過在其領域中的試驗和錯誤積累有關前提條件的知識。 – 概率推理:
使用概率模型可以有效處理不確定性和部分知識。
計算復雜性和組合爆炸: ? 挑戰: – 在復雜環境中,可能的狀態或行動的數量可能呈指數級增長,使得窮舉計算變得不可行。 ? 通過層次化和模塊化方法解決: – 層次化表示:
將知識組織成抽象層次,通過聚焦于更高層次的概念來減少復雜性。 – 模塊化:
將任務分解為更小、更易管理的組件,從而提高計算效率。
強調領域約束: ? 結構化領域減少復雜性: – 無論是物理領域還是抽象領域,具有明確約束的領域會限制可能狀態和行動的范圍。 ? 聚焦相關情境: – 集中在領域內可能發生的實際情境上,進一步減少計算需求。
6 限制問題空間到明確定義的領域
6.1 結構化領域作為環境
當 AI 系統在結構化領域中操作時,它們在獲取常識方面的效果得到了增強——這些環境具有一致的規則、模式和約束。這些領域可以是物理的,例如現實世界,也可以是抽象的,例如數學問題空間或游戲環境。
結構化領域的特點:
? 明確的規則和約束:
– 領域有特定的規則來規范互動,這些規則可以是物理法則或邏輯原則。
? 可觀察的規律性:
– 重復的模式和結構使得識別和預測成為可能,從而促進學習。
? 有限且相關的情境:
– 可能的情境集合是可管理的,并且與 AI 的功能相關,從而實現有效建模。
示例:
? 物理領域:
– 現實世界,物理法則如重力和運動在其中適用。
? 抽象領域:
– ARC 挑戰,其中任務在具有特定規則和模式的受限問題空間內定義。
6.2 對 AI 開發的影響
復雜性簡化:
? 可能性空間的減少:
– 通過專注于結構化領域,理論論證中考慮的無限可能性被縮小為有限且可管理的集合。
? 利用領域規律性:
– AI 可以從環境中存在的一致模式中學習并進行歸納。
與人類和動物學習的對齊:
? 具身互動:
– 就像人類和動物通過與環境互動學習一樣,AI 系統也可以通過與結構化領域的互動來發展常識。
? 知識扎根:
– 領域約束幫助將 AI 推理扎根于具體的經驗或邏輯原則中,增強理解和適應性。
實際開發策略:
? 層次化學習模型:
– 實現分層架構,從基本輸入到抽象推理處理信息。
? 持續學習和適應:
– 允許 AI 系統隨著時間的推移學習,適應領域內的新信息和變化的環境。
受限問題空間的好處:
? 改進的泛化能力:
– 通過專注于一致且結構化的環境,AI 系統可以更好地將從學習經驗中獲得的知識泛化到領域內的新情境中。
? 提高效率:
– 將范圍限制在相關情境內減少了計算需求和資源消耗。
結論:
通過將問題空間限制在明確定義的領域內,我們可以緩解理論挑戰,創造有利于 AI 系統常識發展的環境。無論領域是物理的,如現實世界,還是抽象的,如 ARC 挑戰,結構化環境使 AI 能夠有效地學習、適應和推理。
7 將常識整合的實際步驟
7.1 重新設計基準測試和挑戰
修改現有基準測試:
? 加強 ARC 挑戰:
– 強制最小化先驗知識:
限制 AI 系統僅訪問“假定知識”部分,禁止在開發過程中訪問訓練和測試問題。
這樣可以防止過擬合,并鼓勵開發真正的推理能力。
– 促進認知具身:設計需要 AI 系統在抽象領域內進行認知互動的任務,促進自適應推理和情境學習。
? 創建新的以常識為重點的基準測試:
– 開發需要情境理解的任務:
創建需要根據情境解釋信息的挑戰,涵蓋物理和抽象環境。
– 強調“白板”方法:設計評估 AI 從最小先驗信息中學習和適應的能力的基準測試,模仿人類和動物如何面對新情境。
實施“白板”測試:
? 零樣本和少樣本學習評估:
– 評估 AI 系統在沒有先前訓練示例的情況下執行任務的能力,突出其泛化和推理能力。
? 過程導向的指標:
– 評估 AI 系統的推理過程和決策路徑,而不僅僅是最終輸出,以確保它們采用常識策略。
7.2 開發新的評估指標
評估認知過程:
? 可解釋性和透明性:
– 要求 AI 系統提供決策的解釋或理由,以便評估者評估常識推理的存在。
? 測量適應性和學習效率:
– 跟蹤 AI 系統從新經驗中學習或適應領域內變化的速度和效果。
關注資源利用:
? 效率指標:
– 評估為實現性能水平所需的計算和數據資源,推動資源高效的解決方案。
? 可擴展性評估:
– 確定 AI 系統在擴展到更復雜的任務或更大領域時如何保持性能,這表明其具有強大的常識能力。
7.3 擁抱跨學科合作
整合其他領域的見解:
? 認知科學和神經科學:
– 利用對人類和動物認知的理解來指導 AI 架構和學習模型。
? 哲學和倫理學:
– 融入倫理推理框架和關于知識與理解的哲學視角。
合作研究計劃:
? 跨學科團隊:
– 組成由 AI、心理學、神經科學、哲學和其他相關領域的專家組成的團隊,以解決整合常識的多面挑戰。
? 數據和方法的開放共享:
– 通過在 AI 社區之間共享數據集、算法和研究成果,促進透明度和合作。
7.4 重新思考 AI 軟件棧
解決架構限制:
? 開發新的軟件框架:
– 設計本質上支持常識推理的 AI 軟件架構,可能受到生物有機體中神經和認知結構的啟發。
? 融入模塊化和層次化結構:
– 實現允許分層學習和推理過程的軟件設計,使 AI 系統能夠從更簡單的組件構建復雜的理解。
采納新方法:
? 結合符號和統計方法:
– 將符號推理(用于邏輯和規則)與統計學習(用于模式識別)的優勢結合起來,以增強常識能力。
? 強調學習而非編程:
– 將焦點從硬編碼的知識轉向從互動中學習和適應的系統,與常識在人類和動物中發展的方式相一致。
8 當前方法的風險與變革的必要性
8.1 期望與資源的不匹配
過度強調規模化以實現自主性的風險:
? 投資分配不當:
– 繼續大力投資于規模化,并期望其帶來自主性,可能會將資源從整合常識的核心挑戰上轉移開。
? 期望差距:
– 高估規模化在自主性方面的成就可能導致失望和懷疑,尤其是當 AI 系統未能滿足這些期望時。
解決核心挑戰:
? 重定焦點:
– 在規模化和整合常識之間保持平衡,確保 AI 進展與實現可靠自主性的目標一致。
? 最大化投資回報:
– 通過專注于正確的問題,資源可以更加高效地利用,從而使 AI 系統在社會和商業上產生更大的價值。
8.2 技術幻滅
公眾信任的喪失:
? 未兌現的期望:
– 屢次未能實現自主 AI 的承諾可能會導致用戶、投資者和政策制定者的懷疑。
? 倫理和安全問題:
– 缺乏常識的系統可能表現出不可預測的行為,導致事故或倫理失誤,從而削弱信任。
對研究和發展的影響:
? 融資減少:
– 幻滅可能導致 AI 研究的資金減少,阻礙進展。
? 人才流失:
– 如果 AI 開發停滯不前,研究人員可能會轉向其他領域。
8.3 解決自我改進 AI 的擔憂
專家對自我改進 AI 的看法:
谷歌前 CEO 埃里克·施密特警告稱,當 AI 系統開始自我改進時,“我們需要考慮其影響”。這一擔憂反映了對 AI 系統在沒有足夠監督的情況下修改和增強自身能力的潛在風險的擔憂。
沒有常識的智能的危險:
? 不可預測的行為:
– 缺乏常識的 AI 系統可能無法理解自我改進的廣泛影響,從而導致意外和潛在有害的結果。
? 缺乏倫理推理:
– 沒有常識的 AI 可能會以與人類價值或安全規范沖突的方式優化目標。
沒有常識的 AI 與具有常識的 AI 的比較:
? 沒有常識的 AI:
– 由于缺乏對情境和后果的理解,可能無意中造成傷害。
– 自我改進可能放大現有的缺陷或偏見,增加負面影響。
? 具有常識的 AI:
– 更能夠做出符合人類價值的明智決策。
– 能夠進行倫理自我改進,識別并減輕風險。
通過整合常識來解決擔憂:
? 增強的監督與控制:
– 具有常識的 AI 能夠理解遵守安全協議和尊重人類監督的重要性。
? 倫理自我改進:
– 融入常識確保 AI 系統負責任地自我改進,優先考慮安全性和與人類價值的一致性。
8.4 真實的恐懼:沒有常識的智能
理解公眾的擔憂:
? 對不可預測的 AI 的恐懼:
– 對 AI 或超智能的恐懼通常源于對沒有常識的智能系統的擔憂,這些系統可能做出有害的決策。
? 對 AI 決策的缺乏信任:
– 沒有常識的 AI 可能無法理解或遵守社會規范和倫理標準,從而導致不信任。
通過整合常識來減輕恐懼:
? 建立可靠和可預測的 AI:
– 確保 AI 系統具有常識,減少意外行為的可能性。
? 使 AI 與人類價值對齊:
– 具有常識的 AI 更能夠識別和尊重倫理考慮,從而增強公眾信任。
對 AI 開發的影響:
? 安全性需要常識:
– 整合常識不僅是技術挑戰,也是解決社會對 AI 擔憂的關鍵因素。
? 推動負責任的創新:
– 專注于常識支持開發既先進又符合倫理的 AI 技術。
9 結論
9.1 重申核心論點
能夠實現真正自治的 AI 系統的發展,依賴于常識的整合,這種能力是所有動物固有的,也是與物理和抽象環境互動的基礎。雖然擴展性在非自治應用中帶來了顯著的進展,且像圖靈測試這樣的基準提供了關于類人對話的有價值見解,但僅依靠這些方法無法實現自治。
我們認為:
? 當前的 AI 方法不充分:
– 僅依賴擴展和增量改進,而不整合常識,會導致漸進式性能限制。
– AI 系統可能在特定領域表現出令人印象深刻的能力,但缺乏實現真正自治所需的適應性和理解力。
? 常識對自治至關重要:
– 整合常識使得 AI 系統能夠適應新情況,做出直覺決策,并在沒有過多計算需求的情況下自治操作。
– 這包括在定義良好的領域內進行物理和認知體現的能力。
? 重新思考 AI 軟件堆棧是必要的:
– 實現真正自治可能需要從根本上重新設計 AI 軟件架構,以支持常識的整合。
– 融合來自認知科學、神經科學和其他學科的見解,可以為開發像生物智能一樣學習和推理的 AI 系統提供指導。
通過重新定義知識獲取的順序(ordo cognoscendi),優先考慮常識,我們可以:
? 解鎖 AI 的真正社會和商業價值:
– 開發可靠、值得信賴并能在復雜環境中自主操作的 AI 系統。
? 提升 AI 的適應性和理解力:
– 使系統能夠根據上下文學習并做出直覺決策,這是自治的關鍵。
? 設定現實的期望:
– 認識到擴展性和傳統基準(如圖靈測試)的作用,同時引導工作重點向整合常識的方向發展,以取得有意義的進展。
9.2 號召行動
我們呼吁 AI 社區——研究人員、開發者、政策制定者和教育者——:
? 承認擴展性貢獻與局限性:
– 欣賞擴展性在非自治應用中為 AI 帶來的進展,同時認識到其在自治方面的局限性。
? 優先研究常識整合:
– 關注常識整合這一核心挑戰,以實現可靠、值得信賴的自治。
? 擁抱跨學科合作:
– 利用認知科學、神經科學、哲學和其他領域的見解來指導 AI 的發展。
? 戰略性投資:
– 將資源合理分配于擴展性努力和解決常識問題的基礎性研究,以確保平衡進展。
? 重新思考 AI 軟件架構:
– 考慮從根本上重新設計軟件堆棧,更好地支持常識整合,融入新的方法論和框架。
通過共同關注常識的整合并重新思考底層架構,我們可以釋放 AI 的全部潛力,實現真正的自治,為社會和商業帶來真正的價值。
9.3 擁抱安全與倫理的 AI 發展
基于像 Yann LeCun 和 Eric Schmidt 等專家提出的擔憂,我們強調將常識整合進 AI 系統的重要性,以確保安全和倫理的自我改進。圍繞 AI 和超級智能的恐懼,往往源于智能系統在沒有常識的情況下操作,可能導致不可預測或有害的行為。
通過整合常識,我們可以:
? 緩解與 AI 自治相關的風險:
– 確保 AI 系統理解上下文、后果和倫理考量,從而減少意外傷害的可能性。
? 增強公眾信任與接受度:
– 開發與人類價值觀和社會規范一致的 AI 技術,解決公眾的憂慮。
? 推動負責任的創新:
– 培養一個使 AI 系統積極貢獻于社會的環境,推進技術的同時保障倫理標準。
總之,常識是你所需要的一切,它是彌合當前 AI 能力與真正自治之間差距的橋梁。通過優先考慮常識的整合并重新思考我們的方法——包括軟件架構——我們可以創建不僅高效執行任務,還能理解并適應物理和抽象世界復雜性的 AI 系統。這一全面的方法對于實現有益人工智能的全部潛力至關重要。
原文鏈接:https://arxiv.org/pdf/2501.06642
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.