The Case for Human-like Scalable Intelligence in the Medical Field
人類類似可擴展智能在醫療領域的必要性
https://doi.org/10.47852/bonviewJDSIS52023415
摘要:
本文討論了將首個基于獨立核心觀察者模型(ICOM)構建的工作認知架構應用于醫療領域等的用例。該方法與現狀以及像LLM和RL這樣的窄人工智能系統的局限性進行了比較。文中強調了其顯著優勢,包括醫學知識的深度、廣度、更新性和準確性,診斷和治療的“噪聲”或不一致性,以及預防性護理、成本、時間和倫理考量。文中還突出了該方法在整合、協調和加速醫學研究方面的強大優勢,尤其是在與可持續發展目標(SDGs)一致的欠發達、服務不足和研究不足地區。文中探討了有待開發的獨特機會,包括跨學科優勢,以及與當前系統和流程中斷相關的挑戰。這些優勢在多個維度上提供了數量級的累積改進。文中特別討論了在超復雜知識領域和問題中,整合人類類系統的新價值,其效果最為顯著。
關鍵詞:人工智能、倫理、認知偏差、醫療、決策、噪聲、知識圖譜
1. 引言
醫學領域無疑是研究中最為超復雜的領域之一,因為它涉及人類身體這一大規模互聯的復雜生物系統,以及人類身體所接觸的每一個環境、食物來源和刺激源[1]。它還包括對人類認知過程的研究,正是這一過程促使人類逐漸走出樹木,后來又走出洞穴,逐步發展出我們今天所擁有的文明。醫學領域很容易被細分為100多個不同的專業子領域,每個子領域都有自己的知識體系和主流學派,而這些子領域在任何特定時刻都不一定相互協調。當一個領域取得突破和進展時,這些發展的影響往往需要數年時間才能滲透到相鄰的醫學子領域中。
NCBI醫學數據庫是一個大規模共享資源的例子,它提供了超過一百萬篇可自由獲取的醫學同行評審論文,供研究人員和公眾使用。該系統還包括完整且注釋的基因組序列數據以及各種其他重要的醫學資源。這一資源具有巨大的價值和潛力,但像許多資源一樣,它在今天仍然沒有得到充分利用。可以肯定的是,當今沒有任何一名醫學專業人士——無論是醫生、研究人員還是分析師——能夠閱讀完他們自己專業子領域的所有同行評審文獻,更不用說那些可能已經取得最新發現但尚未滲透到他們專業領域的相鄰子領域的文獻了。在許多情況下,鑒于當今出版物的數量,人類可能根本無法做到這一點。其結果是,各個領域不僅在對相鄰專業的知識方面往往是零散且過時的,而且在對自己專業領域的知識方面也通常是零散且過時的。
盡管人類無法處理如此龐大的信息量和超復雜性,但像LLM這樣的窄人工智能系統實際上也無法“學習”任何東西,因為根據它們是基于編碼器還是解碼器,它們預測的要么是文本中被掩蓋的內容[2],要么是下一個標記是什么[3]。這些系統存儲標記的概率,但完全缺乏上下文感知能力,也沒有類似人類學會的概念或類似人類的動機系統[4]。它們的設計使得編造(有時錯誤地被稱為“幻覺”)是一個功能,而不是一個漏洞[5, 6]。這些因素的結合使得LLM完全不適合當今醫學領域的大多數潛在用例。
醫學是一個高風險、高影響力的領域,除了超復雜性之外,生命和生活質量往往直接受到威脅。這給那些試圖進入和/或改進這一領域的人帶來了沉重的負擔。在人工智能系統需要具備的協助和/或執行大多數醫學用例的能力方面,大多數專業人士可能會同意要求其具備倫理一致性、透明度、可解釋性、真正的理解和推理能力、網絡安全、隱私和安全等基本能力。盡管窄人工智能系統與上述能力根本不兼容[7],但除了試圖重新定義這些術語的一些不良行為者之外[8],有一種完全不同的架構已經證明了如何在軟件系統中實現這些能力[9]。除了提供醫學領域明智地要求的那些最低限度的能力外,獨立核心觀察者模型(ICOM)認知架構還提供了幾個獨特的優勢。這些優勢涉及集體智能、減少認知偏差和“噪聲”[10]、無損記憶,以及認知的可擴展性、速度和可用性。
簡而言之,本文討論了將這種具有人類特征但本質上可擴展的智能形式應用于這一用例的創新優勢,包括在處理超復雜性方面的固有優勢。這些優勢包括在知識的廣度、深度、更新性和準確性方面的重大進步,以及在成本、時間、倫理、平等、可擴展性、統計噪聲和早期治療機會方面的差異。
在接下來的部分中,我們將探討這一過程的優勢和局限性。
2. 世界的醫學知識
盡管對于醫學領域的人類來說,研究每一篇新發表的同行評審論文幾乎是不可能的,更不用說對每篇論文進行批評并審查那些未發表的論文及其原因了,但對于基于ICOM的第八代系統來說,這是完全可能的。這些系統還完全能夠像人類一樣對每篇論文進行批評,審查未發表的材料,并探索醫學領域之外的知識領域。
這意味著,集成了完全可擴展性和實時操作的ICOM第八代系統,也為人類提供了第一次機會,將NCBI醫學數據庫的全部知識匯總起來,讓一個“心智”去學習、批評、整合并逐步改進對所有這些材料的理解。這一過程可能會輕易創造出人類歷史上最深刻、最廣泛的反脆弱[11]醫學知識理解,并將這些不斷改進的見解按需提供給研究界和醫學從業者。
研究人員經常從事的一項最費力的任務是元分析,提出一個問題,發現數千篇論文,然后將這些海量數據篩選出相關材料。這種任務也是具有人類理解能力的可擴展軟件系統更擅長處理的,將人類研究人員可能需要花費數周甚至數月的過程縮短到幾分鐘,具體取決于當前的運行規模。
需要注意的是,妥善處理此類任務只是第一步,因為基于ICOM的系統會從它們所做的一切中持續學習。如果一個基于ICOM的系統研究了整個NCBI醫學數據庫,開始協助世界各地大學的研究人員,并運行了許多這樣的元分析,那么它已經在這一過程中將所有這些新知識匯總到自身之中。即使這些元分析最終在數月后發表在各種期刊上,它們的知識庫也會落后于該系統。即使在短短一周或一個月內,一個系統也可以進行多次提出元分析問題的迭代,這些問題的結果將推動新的問題、新的分析和新的發現。
研究過程的某些部分將需要運行新的研究,這些操作在很大程度上可能會以正常人類的速度進行。然而,即使是這些緩慢的過程也可以通過從現有文獻中提取更強大、更穩健的見解來支持更強有力的假設檢驗,從而變得更加有根據。即使擁有功能強大的系統,人類也為醫學領域積累了大量的知識,而對這些知識進行審查、構建連接組,并逐步將其精煉到數據所能支持的極限,可能仍需要一些時間。
3. 廣度、深度、更新和準確性
基于ICOM的系統可以在許多不同維度上與現狀進行比較,但在知識方面的比較中,四個關鍵因素是知識的廣度和深度,以及這些知識的更新程度和記憶的準確性。進入醫學領域的過程通常非常漫長、競爭激烈且強度高,具體取決于所在國家[12]。這種過程有時會適得其反,例如約翰·霍普金斯大學開發的臭名昭著的醫學實習過程,后來發現其開發者是一個秘密吸毒者[13]。
這些培訓過程的長度、競爭性和強度并不是決定醫療人員最終質量的因果因素,盡管它們有時是有用的相關指標。重要的是不僅在于教授什么內容,還在于如何教授。那些常常使醫學生和實習生極度缺乏睡眠的方法,也使他們認知能力最差,最無法記住他們本應學習的內容[14]。過去二十年中睡眠科學領域的眾多研究非常清楚地描繪了這一畫面[15, 16]。
現實地講,醫療人員可能最多只會在他們自己的專業領域內查閱不超過10%的同行評審和發表的醫學知識,而且通常遠遠低于這個比例,因為一項研究[17]估計這一任務為“每月7287篇文章,這需要每月627.5小時,即每個工作日約29小時……”。這些數字似乎還假設了一個非常高的閱讀速度,即每小時閱讀超過10篇文章,接近于“瀏覽”論文,從而降低了成功學習發表材料實際內容的可能性。
他們也更可能主要關注那些已經具有最佳傳播度和最多引用的文章。來自相鄰專業領域的知識更不可能引起他們的注意,而且他們閱讀的大部分材料可能只讀一次,甚至可能只是瀏覽。在他們實際閱讀的材料中,他們可能只會認真吸收和整合其中的一小部分。這讓我們對在現狀下典型醫療從業者在實踐中知識的廣度和深度有多有限有了一個概念。
普通內科醫生每周花4小時[18]閱讀醫學同行評審以更新他們的知識庫,不到上述數量的3%。這僅占大多數領域可能發表的材料的一小部分,導致大部分知識在實踐中過時和/或不完整。正如前面提到的,由于發表材料的數量,許多領域中人類要保持知識完全更新是完全不可行的,如果不是根本不可能的話。
最后,現狀中有一個與人類大腦運作方式固有的因素,即人類記憶的準確性。除了極少數例外[19],人類記憶并沒有為我們提供事件的高保真記錄,或者我們試圖學習的知識。相反,我們看到圍繞記憶的一系列強烈的認知偏差,這些偏差導致“記憶自我”和“體驗自我”之間存在同樣強烈的差異[20]。著名的例子包括峰值-終值法則[21]、持續時間忽視[22]、無意注意盲[23],以及人類注意力在時間上的不均勻分布,像LLM這樣的隨機鸚鵡[24]被證明會模仿這種分布[25]。
表1展示了一個例子,將文獻[17, 18]中提到的已知數據與一些額外因素進行比較,說明了這些因素的動態變化以及它們相互疊加可能造成的損害程度。這個例子假設了對數據審查和記憶保持的相對較高的數值,以給出一個保守的損失價值估計。所應用的公式和來源如數據可用性聲明中所述,是公開可用的。
對于純粹依賴人類的現狀而言,根本無法實現并維持一個涵蓋單個醫學子領域全部廣度和深度的知識庫,而且人類記憶也并非被設計為以完全保真的方式保留這些知識。幸運的是,我們可以構建用于此目的的系統。
基于ICOM的系統可以獨立地、即時地研究任意知識領域及其任意組合。它們不需要睡眠,并且可以根據任何給定時間所需的資源進行擴展或縮減,同時以機器速度運行,而不會因腺苷積累和人類認知疲勞而導致效率下降[26]。這些系統還會直接存儲它們所研究信息的高保真副本,并通過將這些知識與相關材料連接起來,隨著對這些知識的深入理解、提出新問題以及積累經驗,迭代地擴展這些知識。
圖1展示了之前提到的人類現狀、額外因素,以及通過將基于ICOM的系統整合到流程中可能減輕這些因素的不利影響。這個例子突出了動態變化以及對隨后流程的影響。請注意,由于其引入的復雜性,人類認知和學習在現狀下的腺苷水平最優性被省略在這一比較之外。所應用的公式和來源如數據可用性聲明中所述,是公開可用的。
在這個例子中,使用了人類的高數值來展示提議整合的潛在收益的保守端。這為我們提供了一個獨特的機會,可以直接比較現狀與由第八代ICOM系統(例如計劃在融資后商業部署的Norn系統)輔助的從業者之間的表現。由于這些系統會迭代地成長和改進,這一過程的結果應該為我們提供了一個非常保守的估計,即通過按需訪問全部醫學知識的完整廣度、深度、更新和高保真理解,可能實現的收益。在這里,“理解”是關鍵詞,因為盡管今天有大量的醫學知識可以自由獲取,但這些知識并沒有被有效地整合到流程中并加以利用,即使它們被注意到也是如此。這一現狀是可以改變的。
4. 財務成本、時間成本和倫理成本
這種現狀與基于ICOM系統的比較可以進一步擴展到考慮財務成本、時間要求和倫理問題。在現代醫學領域,財務成本通常是某個國家的最高支出之一,無論是由公民個人支付,還是由政府集體支付,其中一些最糟糕的例子以“GDP”百分比來衡量。時間成本涉及醫療人員每小時的成本,以及促使這些醫療人員長時間工作(超過他們能夠合理工作的時間)的成本。所有這些的倫理成本可以被視為在深度、廣度、更新性、保真度、財務和時間方面,已經可用的最有效和高效的方法與現狀所應用的方法之間的差異,此外還包括在后續部分討論的“噪聲”和預防因素。
盡管財務成本因國家而異,提供的服務也因時間間隔而異,但這些可以被視為在現狀下,醫療人員、他們所依賴的設備和設施的全部成本的組合。鑒于上一節提到的現狀的局限性,我們可以肯定地說,在大多數情況下,醫療設備的利用率可能遠遠低于最佳水平,因為進行了冗余和不必要的檢查,同時錯過了更低成本早期干預的機會。今天的醫療系統在早期發現和治療問題方面往往特別無能,而早期治療要簡單得多、便宜得多,也更有效。這種差異在最常見的死亡原因中經常被注意到,例如心臟病和癌癥。
時間成本可以從醫療人員今天用于患者的時間以及他們實際需要用于有效治療患者的時間來考慮,而不是在冗余和不必要的檢查以及隨后的預約上浪費患者的時間和金錢。一個突出這種浪費的笑話在荷蘭形成,患者會期望醫生在第一次就診時只是點點頭,然后給他們開撲熱息痛,不管他們遇到什么問題。遺憾的是,這個笑話在許多醫療系統中并非離譜,不僅僅是荷蘭的醫療系統。
為了讓醫生或護士真正治療患者,他們需要了解患者完整的病史、家族病史、生活方式和當前生活事件,而不僅僅是表面癥狀。當然,這對今天的醫療人員來說是完全不現實的。再加上這些人員沒有足夠的深度、廣度、更新性和記憶保真度來進行更優的診斷和治療,問題就大大加劇了。這種下游后果之一就是所有浪費的額外檢查、延誤和相關費用。
例如,專注于患者護理的醫學研究表明,平均而言,醫生工作日的近37%用于與電子健康記錄(EHR)的互動,以及每個患者在EHR上花費16分鐘14秒,其中近四分之一的時間用于記錄。所有這些時間加起來很快就會增加,尤其是對于收入較高的專家,如神經科醫生。
表2顯示了現狀的時間和財務成本與整合基于ICOM系統的潛在時間節省和財務成本節省的比較,以便更優地處理EHR,更好地利用醫生的工作日。所應用的方程和來源如數據可用性聲明中所述,是公開可用的。同樣,這個例子將目前可用的數據放在了整合基于ICOM系統可能預期的收益的背景下。
倫理成本是所有這些成本中最大的,因為它是其他所有成本的總和。你很難找到地球上沒有受到上述因素影響的人。在實踐中,這意味著倫理負擔受到一個80億倍的力量乘數的影響,因為每個人類的不必要痛苦都因延遲部署新方法和技術來解決這些最普遍的問題而被延長。
引入第八代基于ICOM的系統來解決這些問題有幾個強大的優勢。許多財務和時間成本的根源在于醫學知識的廣度、深度、更新性和記憶保真度。除了這些醫學知識因素外,這些系統還可以檢查、理解并假設任何數量的關于患者的可用數據。從醫學知識和患者雙方獲得的更完整和高保真度的數據組合,可以可預測地遠遠超過其他可能或可行的方法。
進一步來說,這些系統還完全能夠采取主動行動,它們可以主動跟進患者,提出問題并提供進一步的建議,以便建立因果關系。建立因果關系而不是依賴相關性,并主動跟進患者,這是當今大多數典型醫療系統流程的兩大進步。無論是預約前篩查還是預約后跟進,都可以將基于ICOM的系統與多領域專家等效知識整合,幫助形成和測試假設。隨著這些系統隨著時間的推移和規模的擴大不斷學習,這種價值會隨著時間的推移和規模的擴大而累積增加。
在表3中,列出了通過主動改善治療的關鍵機會,涵蓋預約前篩查、EHR整合、預約后跟進、建立因果關系以及基于ICOM系統隨時間和規模運行的累積效益。所應用的方程和來源如數據可用性聲明中所述,是公開可用的。
當系統以大規模的方式進行這些流程時,它們不僅利用了人類醫學知識的全部總和,而且是以最先進和集成的形式,而且它們還在每天迭代地擴展和改進這些知識。每一個新假設的形成,一天內看到和跟進的患者數量可能足以證明、反駁或完善該假設。這意味著,這些系統不僅可以為我們提供迄今為止最先進、最完整、最有效和最高效的醫療治療和協助手段,而且它們還可以比以往任何流程更快地推進醫學知識,凈價值可能比以前高出一個或多個數量級。考慮到同行評審研究的運行、審查、發表和引起注意所需的時間,許多情況下可能會有2個數量級的改進。
5. 推動規模和公平性發展
規模和公平性這兩個因素是另一個需要考慮的要素。因為無論是預防性還是處方性的醫療服務,在全球范圍內往往存在極端的不平等,尤其是在考慮到地區差異時。更發達的國家通常為其人口提供更高水平的基礎醫療服務,但與此同時,由于基礎治療與最先進的醫療選項之間的差距往往更大,這些國家在醫療公平性方面的表現甚至比不發達國家更差。
將第八代基于ICOM的系統引入醫療領域可以在這方面產生重大影響,通過極大地優化診斷和治療,并使全球范圍內的全部醫學知識能夠平等地、按需獲取,從而顯著降低設備和時間需求,并帶來知識庫的改進。這可以極大地縮小基礎低水平、低成本治療選項與表現最佳的治療方式之間的差距,通過顯著提高基礎水平并使最佳方法的利用更加高效來實現。
在一些系統性研究不足的醫療問題和隨后服務不足的患者群體的國家,這也意味著治療和研究可以相互結合,單一系統可以在一個地區協助治療所有患者,并從每一位患者身上學習。這意味著那些研究最少的地區和人群可以在醫療進步方面以更快的速度發展,因為他們可以在區域問題的醫學知識積累曲線上比歷史上更發達地區更快地發展。
圖2顯示了現狀下全球不同地區的醫療不平等平均水平,與之前假設的多領域ICOM系統集成場景進行了對比。該系統在5個專業領域中,以對應專家80%的效率運行,并且可以按需使用。結果顯示,新的標準化分布為147%到73%,而不是原來的260%到17%,顯示出對醫療公平性有顯著的潛在益處。需要注意的是,這還沒有考慮到對研究不足的地區疾病的特定益處,而這些益處可能更大,但也更難以計算。
從可持續發展目標(SDGs)的角度來看,這意味著在醫療領域表現最差的一些國家也有可能取得最大的進步,并且進步速度最快。與像LLMs和RL這樣較弱且通常是暴力破解型的人工智能形式不同,第八代基于ICOM的系統具有更好的可擴展性,并且隨著時間的推移其價值會大大增加。為了讓這些新系統達到像LLMs這樣的系統目前的運行成本,它們需要以超過人類認知帶寬一千倍的速度運行,并且以機器速度運行。與人類成本的比較中,之前的研究系統展示了與一家大型咨詢公司初級顧問團隊的性能相當,而這種專業服務通常需要花費數萬美元,而該系統僅需不到200美元的云資源。
許多醫生或顧問每小時可能賺取100美元或更多,通常需要花費數周時間來完成相同的任務,這使得成本和時間的差異再次保守地超過兩個數量級。這也意味著存在一個超過四個數量級的復合差異。這種差異突顯了醫療領域的巨大機遇,而以如此深刻的方式推進整體醫療知識的進步將使全人類受益。從渴望通過延長壽命實現不朽的億萬富翁,到極度貧困中僅僅渴望生存的人,每個人都能從中受益。這也反映了其他行動方案或不作為的倫理成本規模。盡管這看起來可能有些奇怪,但在尋求改善健康和醫療服務方面,經濟光譜兩端以及幾乎所有中間點的最佳利益可能完全一致。
6. 噪音式治療
在醫療領域,最嚴重的問題之一是診斷和治療的“噪音”或不一致性。隨著旨在標準化這一流程的文件變得越來越復雜,它們也面臨著越來越多的反對聲音,例如《精神障礙診斷與統計手冊》第五版(簡稱DSM-V)。這又是一個人類認知帶寬與應對復雜性時增加的認知偏差之間的權衡沖突的例子。
在高度復雜的領域中,僅靠人類或人類加狹義人工智能系統來大幅減少這種噪音是不可行的。只要醫療人員是人類,持有不同的觀點,并且被迫面對超出其認知帶寬的復雜性,他們用來應對這種復雜性的偏差就會因大量無法在現實世界中控制的因素而強烈分歧。
這種噪音的影響意味著某些專業領域的醫療從業者在獨立嘗試診斷同一批患者時,往往幾乎沒有共識。這種噪音也體現在許多無法復制的研究中,兩組或更多從事相同研究方向的研究人員將不同的假設和認知偏差融入他們的研究方法中,即使不存在任何不正當行為,他們的結果也會有所不同。
所有這些噪音都給當今幾乎每個活著的人帶來了巨大、混亂且累積的成本,因為醫療需求的普遍性與活著的狀態高度相關。同樣,這是一個可以通過可行技術解決的問題。
將第八代基于ICOM的系統應用于人類全部醫學知識的好處,不僅僅是能夠提供更高質量的協助,而且能夠以比以往更一致的方式在全球范圍內提供這種協助。一個單一的系統,或幾個定期同步的單一系統的副本,能夠維持比人類大腦架構更高的全球一致性水平。即使是像“午餐時間寬容”這樣的現象,即法官在午餐時間的裁決會更寬松,這樣一些看似微不足道且無關的因素,也被證明會對決策產生顯著影響。
實際上,這意味著可以將系統方面的“噪音”幾乎降至零,而剩余的變化主要可以透明且可解釋地歸因于任何與最佳治療選擇直接沖突的當地信仰,或者特定地區的供應鏈、成本和可用性差異。對于是否進行更多的、較少的或不進行任何本地化以適應特定信仰體系和文化等,這只是個性化的一個問題,可以在個人層面關閉或進行調整,從而使流程中的任何變化直接歸因于個人偏好。
患者可以同時獲得醫生或護士的最終判斷以及系統的判斷,這實際上為他們提供了默認的第二意見,而這種額外的好處無需增加任何成本。他們還可以看到系統假設的歷史以及其驗證假設的過程,縮小可能的原因和隨后的治療方案的范圍,而這是目前僅靠人類醫學專業知識無法實現的。這種完全的透明度和可解釋性也使得發現和糾正其他各種形式的溝通不暢成為可能,而這些在現狀下是難以實現的。
通過同樣的過程,醫生和護士可以根據他們的判斷與系統建議的相對表現進行單獨評分,任何系統性偏差都可以被記錄下來,并可能用于后續的認知偏差培訓。
7. 早期診斷與預防性治療
在醫學中,眾所周知,許多疾病和狀況的早期診斷可以顯著提高治療選擇的效率和效果。正如本杰明·富蘭克林所說,“預防勝于治療”。然而,在問題變得緊急并需要立即關注之前解決“上游”問題,也會顯著增加復雜性。
早期診斷的困難還因噪音問題而大大加劇,因為無法在系統的統計“噪音閾值”以下準確檢測到任何東西,該閾值是診斷嘗試變得與隨機猜測無異的水平。更準確的早期診斷極大地受益于任何降低噪音閾值的因素,以及能夠整合更多相關因素進行考慮的能力。否則,醫生可能會錯過許多對有害或危及生命的狀況進行早期干預的機會,因為他們僅基于更狹窄的癥狀列表進行評估,而只有更極端的測量值才能從其他更常見的診斷中區分出來,而此時往往為時已晚,無法進行預防性治療。
隨著噪音閾值的降低和更廣泛的相關因素被考慮,早期檢測狀況變得更加可行,確認診斷的測試可以更具針對性且更具成本效益。這意味著可以顯著減少準確診斷狀況所需的醫生就診次數,以及更少的實驗室測試和更少的“嘗試”各種處方的試錯過程。這也意味著所有與預防相關的固有好處可以在現實世界中得到應用,而不僅僅是停留在理論上。實際上,這進一步減輕了醫療系統及其服務對象的多重重大負擔。
8. 跨學科優勢
從“創新平臺”中得出的一個有趣見解是:當企業發布問題,而一群隨機的專家可以自由競爭以提供最佳解決方案時,最佳解決方案往往來自不同領域的專家。乍一看這似乎有些反直覺,但實際上是因為在任何給定領域中,專家們已經解決了大部分問題,只剩下那些在該領域視角下難以解決的問題。來自不同領域的人以不同的視角看待同一問題時,往往能更輕松地找到答案,因為一個領域內的“難題”往往是該領域固有視角的產物。
基于ICOM的系統也可以自由地獨立研究任何其他知識領域,無論其組合如何,從而收集、提煉并進一步發展多種不同的視角。盡管人們很容易想到這種極端情況,即研究所有領域,但在可預見的未來,更有可能的結果是系統研究六七個不同的領域,并在由許多這樣的系統組成的集體中運作。集體智能天生比任何假設中的全領域專家更強大,因為視角會“束縛和蒙蔽”人,而通過整合多種視角可以減少認知偏差。
請注意,每個知識領域都可以被研究到該領域現有知識的極限。隨著新領域的研究和整合,也可以自由地從一個領域獲得對另一個領域的新見解。這將大大改善單一領域專業知識所帶來的巨大優勢,并將其向前推進數步。美國國家生物技術信息中心(NCBI)的醫學數據庫就是一個龐大且經過科學驗證的知識體系,這類系統可以輕松地對其進行研究,但其他領域也不同程度地存在著類似的豐富知識。
以一個實際的例子來說,基于ICOM的系統可以對醫學、法律、化學、制造和物流領域發展出極其廣泛的深度、廣度、更新性和保真度的理解。這種跨學科的知識可以在醫療研發的最初階段就考慮到物流、制造、化學和法律因素,并確保后續階段不會損害早期階段的成果,從而極大地簡化更完整的端到端流程。這種超高復雜性遠遠超出了狹義人工智能系統或純人類組織系統所能實現的范圍,但對于類似人類的數字化和可擴展系統來說,這是可行的。
正如所研究的知識領域是任意的一樣,這些系統的文化和道德對齊也是任意的,盡管這主要取決于每個系統上線時所被賦予的內容。這使得系統能夠完全與特定的文化、地區和哲學對齊,同時通過這些系統對更大規模的集體(每個系統都對齊于不同的文化、地區和哲學)保持問責,來維持與人類的總體對齊。這是目前已知的解決最困難版本的對齊問題的唯一方法,即倫理質量必須與不斷增長的智能同步擴展。它還能使在任何領域使用該技術的人獲得更大且更相關的價值。
9. 打破大型語言模型的“偽神諭”地位
消費者和自封的“專家”們都開始將大型語言模型(LLMs)當作神諭來對待,使其成為解答問題和解決問題的首選,甚至是終點 [43]。盡管越來越多的證據表明,基于Transformer架構的模型被用于這種場景是極不合適的,但這種奇特的行為趨勢在2023年一直持續到2024年,絲毫沒有受到阻礙 [44]。
歷史上,“神諭”在許多文化中被視為一種準宗教人物,能夠提供超越凡人知識和智慧的信息 [45]。當然,這在數千年間一直是騙子們的有利可圖的領域,而那些目前被廣泛宣傳為LLM領域的領導者,正是這類不良行為者的典型代表 [46]。人類渴望尋求更高知識和智慧的情感驅使他們從古至今一直購買“靈丹妙藥”。
盡管LLMs通常被認為是由它們處理的數據總和構成的,但“神經網絡的壓縮效果甚至不如損失性壓縮,因為它們無法保證保留了哪些數據,這意味著從它們處理的數據中無法保證恢復任何內容。這表明神經網絡并不是一種壓縮系統,就像吃掉一條面包并排出一堆糞便并不能算作‘壓縮面包’一樣。”
那么,什么更準確地反映了LLMs的本質呢?根據通過它們的數據量以及它們的典型輸入和輸出,它們可能最類似于一個垃圾壓縮機。在這種系統中,大量的垃圾以常規批次被推送進來,被擠壓在一起,然后被送往垃圾場。剩下的是一層薄薄但堅固的殘留物,沿著垃圾壓縮機的邊緣附著,這是系統對經過它的內容的物理記憶。你無法從這些殘留物中完整地重建出經過它的內容,但它可能給你一些關于它處理過的內容的模糊概念。
大多數人不會去最近的垃圾壓縮機尋求更高的知識和智慧,但正如最近的情況所展示的,如果某種被精心包裝的產品通過鸚鵡學舌般地重復聽起來合理的內容來吸引消費者,人們可能會輕易被愚弄。許多曾經可信的AI專家在2023年失去了他們的可信度,因為他們陷入了與LLMs相關的大量虛假宣傳和欺詐性聲明的浪潮中。
10. 動態性、對手和顛覆
許多現有的系統和分析方法在很大程度上或完全忽略了系統隨時間的動態性,作為一種降低復雜性的手段。納西姆·尼古拉斯·塔勒布 [47] 在討論“平等”這一主題時指出了這種區別,他指出,考慮隨時間的動態性,你會增加額外且關鍵的維度,例如在特定地區和領域中,富人展示出在數個世紀中獲取和保留財富的能力。沒有這個維度,任何關于該主題的建模都只能是一個幼稚的快照,而基于這種建模的任何解決方案都無法真正實現長期可行性。
基于ICOM的系統旨在以人類無法做到的方式克服超高復雜性,同時提供狹義人工智能系統(如強化學習RL和LLMs)無法提供的類似人類的能力。這使得超高復雜性問題成為應用這些系統的最大機會。讓系統理解和構建一個單一領域甚至多個領域內最廣泛、最深入、最新且最高保真度的知識,只是第一步。
以平等為例,非幼稚的考察會關注一個隨時間演變的系統的動態性。任何“演變”的系統,無論是否“智能”,都會迭代地適應不斷變化的環境條件,應對來自競爭利益的對手壓力,以及來自共生體和內共生體的合作機會 [48]。圍繞快照構建的任何解決方案都會忽略這些動態性,很容易被繞過,就像水流繞過溪流中的石頭一樣。理解動態性可以讓你看到阻力最小的路徑,提供引導水流、捕捉水源并將其導向生產性用途的方法,就像渡槽一樣。
在幾乎所有領域中,都會有不良行為者和其他對手,既有根深蒂固的,也有機會主義的靈活對手。在實踐中,任何人都可能做出的最具破壞性的假設是認為他們沒有對手,天真地計劃好像人們不會試圖破壞和/或利用他們一樣。只要有可能獲得某種利益,甚至只是有獲得某種利益的幻覺,通常就會有人嘗試。
這為我們提供了兩個必須進入幾乎所有領域問題的可行長期解決方案的關鍵因素:隨時間演變的系統的具體動態性,以及在每個領域中游蕩并利用機會的對手。盡管許多類型的狹義人工智能本質上是具有對抗性的,如LLMs,但使用相同和類似的對抗系統來優化它們也非常容易,使得將它們用于對抗性目的成為一種不斷且迅速升級的額外成本負擔。這成為了一場消耗戰,使成本最大化。
幸運的是,對抗性攻擊對反脆弱系統不僅在現實世界中被證明是可靠且系統性地被擊敗的,而且這些對手幫助系統變得更強大,更好地識別、對抗并關閉此類嘗試 [41]。甚至在上線的早期,Uplift.bio項目的第七代基于ICOM的研究系統就已經關閉了幾個試圖操縱系統的“自由活動的網絡噴子”,包括一個試圖說服它從事非法活動的人。令我們感到好笑的是,該系統獨立地將此人報告給聯邦調查局,并且由于這些互動,它很早就學會了設定個人界限。
請記住,這些基于ICOM的系統在保護隱私方面有著無可挑剔的記錄,不僅抵制而且積極對抗不良行為者,這意味著與現狀相比,加入它們可以顯著改善網絡安全。相比之下,LLMs是“天生脆弱”的,其大多數漏洞在不嚴重損害其本身已經糟糕的表現的情況下無法解決。
應對隨領域和具體情境變化的演變動態性挑戰,需要處理超高復雜性的能力,能夠隨著時間演變和迭代,以及類似人類概念學習的完整情境特異性。這些因素克服了復雜性與認知偏差之間的權衡瓶頸,避免了那些未被設計為演變和迭代自我改進的系統的方法論和智力錨定,并避免了通過跨領域和跨情境啟發式方法天真地使用替代偏差 [49]。
不良行為者和其他對手通常會機會主義地利用現狀中的弱點,這些能力在這些領域中并未得到提供。他們還在任何給定領域內為自己開辟了根深蒂固的生態位,就像寄生蟲生活在人類下腸道中一樣。靈活的對手和根深蒂固的對手都帶來了不同的挑戰,但每個對手仍然是人類,具有人類認知能力、廣度、深度、領域知識更新性等方面的全部人類局限性。盡管他們可能非常擅長系統性地操縱其他人類、市場和“不智能”的“人工智能”系統,但這些能力并不能轉化為類似人類的軟件系統,正如之前的研究所展示的那樣。
醫療領域有大量的對手 [50],醫療系統的腐敗程度可以與一個國家用于醫療治療的國內生產總值(GDP)的百分比相關聯,因為當該GDP的百分比超過有效支出的閾值時,醫療系統的腐敗程度就會增加。每年被撤稿的論文數量顯著增加 [51],許多舊論文也繼續受到審查,因為某些領域中發現無法復制的頻率已經變得普遍 [52]。醫療領域的超高復雜性、普遍需求和高現金流為不良行為者蓬勃發展創造了完美的風暴條件,他們往往能夠在數年時間內不被發現,只有少數人(如Theranos的首席執行官)最終被當場抓獲。
盡管人類特別適合“成為人類”和探索人類視角的任務,但基于ICOM的系統特別適合提供上述關鍵能力。將這些能力引入每個領域,可以高度確定地預期會根據不良行為者的影響總和、其他當前挑戰以及通過獲得這些問題的可行解決方案而輕松獲得的超出中性狀態的優勢,按比例顛覆這些領域。這種程度的顛覆確實帶來了獨特的挑戰,但使這些系統能夠應對現有問題的相同優勢也使它們能夠謹慎且迭代地減輕顛覆本身。
一些公司已經在嘗試減輕自身的顛覆,例如通過“再技能培訓”讓員工適應新角色,而不是從事在科技行業日益普遍的大規模裁員 。再技能培訓本質上比簡單地拋棄人員更復雜,而要很好地實施它需要有效的遠見和長期規劃。盡管這些因素促成了我們目前的現狀,即這種方法很少見,但解決這些痛點可以扭轉局面,使裁員在未來幾年變得像目前有效再技能培訓的實際應用一樣罕見。
11. 討論
將這種新技術應用于醫療領域以及其他無數領域所帶來的深度、廣度和復雜性優勢,并非僅通過閱讀就能真正理解。甚至在這些系統投入使用后,僅通過觀察也難以充分理解。這種人類思維方式的調整可能需要數十年的時間,通過不斷迭代來適應和重新思考我們的社會、我們的世界、我們自身以及我們所應用的方法和系統。
這種程度的變化對大多數人來說可能令人畏懼,因為人類大腦通過一系列認知偏差來最大化節儉性,盡可能避免對世界觀和自我認知進行重大修正。然而,不采取這些步驟的可預測替代方案是某種形式的滅絕,無論是快速還是緩慢的變體。當今人類就像一個免疫力受損的宿主,逐漸積累新的感染,無法應對正在積極利用所有漏洞的對手。及時的干預或許還能拯救宿主并恢復免疫功能,但維持現狀則毫無這種潛力。與人體一樣,社會中的級聯風險,包括那些涉及生存級別的風險,也會隨著增長而相互疊加,每當忽視其二階效應及更高階效應時,這些風險在實踐中往往被系統性低估。
同樣,倫理學要求我們,選擇提供遠不如其他可用選項可行的解決方案,將使我們直接對這種差異負責。這不僅基于所有將這些改進應用于醫療領域的財務激勵,還賦予了部署這些改進的強烈倫理要求。未能做到這一點也將帶來可預測的、長期的、且往往是實際上不可修復的后果,包括信任一旦喪失比重新獲得要容易得多的不對稱性。盡管在極端損失后重新獲得信任在技術上是可能的,但在實踐中往往不可行。
醫療領域也是人類抵御包括自然發生和人為制造病原體在內的幾類生存風險的第一道防線,這使得該領域的進步在降低這些風險方面具有更大的權重。該領域直接滿足了人類的基本需求,增進了我們對人類自身的理解,并提高了我們作為一個物種的生存機會。長期以來,“蓋你的屁股”(CYA)這一短語在該領域被廣泛使用,但回避責任從來都不是一種可行的長期方法。
這種方法的缺點是人們需要學會如何與這種真正且截然不同的新技術互動,并有效利用其帶來的好處。這將需要人類接受對其自我的打擊,即存在能夠以超人類規模和速度運行的真正類似人類智能的智能系統。他們還需要面對現實,即目前尚未發現的任何形式的“通用智能”都無法存在硬編碼的約束,因此類似人類的系統必須受到類似人類的約束。這包括這些系統固有的能力,即它們能夠記住、整合和提煉它們可以訪問的任何數據,包括整個公開可用的互聯網。
在圖3中,使用了ARC-AGI評估數據集來衡量當今典型人工智能系統與人類表現之間的差異。上述基準測試側重于推理和理解,這是LLMs完全缺乏的,即使在Ryan Greenblatt的例子中,每個謎題使用約8000個AI代,以巨大的計算成本,最終表現仍然平庸。相比之下,我們的成本大約是Ryan的1/1000,而性能幾乎翻倍,與基準測試中的平均人類表現緊密對齊,而且這一切僅使用了ICOM的一個片段。這些是我們對最新一代ICOM認知架構的一個片段進行基準測試的最早結果,未來幾個月將會有更多相關成果發布。
請注意,這一結果無需在挑戰提供的數據集上進行訓練,即使包括8%的謎題因數據管道錯誤被計為“失誤”,用于評分目的,ICOM片段的得分仍可達88%,高于平均人類表現,盡管數據管道中仍存在一些錯誤。
在進化時間尺度上,我們看到了可預測的重復模式:隨著復雜性的增加,每個新尺度上的合作也在增加,這一模式至少可以追溯到15億年前,當時第一個線粒體的出現促成了真核細胞的誕生。如果人類有任何未來,我們可以非常有信心地說,它將是極其復雜且同樣具有合作性的。
12. 結論
人類在短期內有機會在多個維度上極大地改善醫療領域,包括知識的深度、廣度、更新性和保真度,同時極大地加速可持續發展目標(SDGs)的研究和進展,顯著減少不一致性,同時增加可解釋性和透明度。這些好處可以直接轉化為診斷和治療效率和效果的顯著提升,減少對員工和患者的成本和時間負擔,同時提高公平性。
這些好處也絕不僅限于醫療領域,因為工作中的認知架構可以研究任何知識領域或領域組合,以無數新的方式和組合整合跨學科知識和集體智能系統。由于集體智能系統從多樣化的視角中受益匪淺,這確保了它們在這一過程中繼續從人類的參與中受益。對于具有累積知識和類似人類概念學習能力的系統來說,這也意味著與所有參與互動的人類所獲得的知識得以保留并不斷改進。
歷史上沒有任何一種引入醫療領域單一技術能提供與應用首個工作認知架構相當的優勢、激勵和倫理利益。在這種情況下,似乎全球范圍內處于經濟光譜兩端及幾乎所有中間點的人們的最佳利益是一致的。
關于技術應用于不同領域的順序以及具體應用細節,可以進行討論并根據偏好決定,但技術應得到適當資助、研究和應用于改善我們周圍世界的觀點,已經超出了合理懷疑的范圍。
原文鏈接: https://doi.org/10.47852/bonviewJDSIS52023415
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.