(來源:MIT Technology Review)
幾周前,在參加全球數(shù)字權(quán)利會議“RightsCon”期間,我親身感受到國際民間團體正在經(jīng)歷的結(jié)構(gòu)性震蕩。
RightsCon 是由非營利組織 Access Now 發(fā)起的全球性的數(shù)字權(quán)利會議,旨在促進人權(quán)、隱私保護和自由表達,以及技術(shù)創(chuàng)新等核心議題,該會議每年在全球不同城市舉辦。
在今年的會議上,來自世界各地(包括美國)的民間社會組織,討論了如何應(yīng)對全球數(shù)字權(quán)利工作最大資助方之一“美國政府”撤資后帶來的困境。
值得關(guān)注的是,當(dāng)前美國政治生態(tài)正在發(fā)生范式轉(zhuǎn)變。正如此前在報道中所指出,特朗普政府對美國聯(lián)邦機構(gòu)職能的大幅削弱令人震驚,并推動美國政治體制向一些政治學(xué)家口中的“競爭性威權(quán)主義”演進。
這種轉(zhuǎn)變不僅重塑了華盛頓的權(quán)力圖譜,也對硅谷科技巨頭的全球戰(zhàn)略產(chǎn)生深遠影響,波及大量美國科技公司的運營與政策。要知道,這些美國科技公司的用戶遍布全球,遠超美國本土市場。
RightsCon 會上有不少與會者向我透露:他們已經(jīng)察覺到這些科技公司在參與和支持用戶基礎(chǔ)較小的社區(qū)(尤其是非英語用戶群體)方面的意愿和投資正在減少。
正因如此,不少政策制定者和商業(yè)領(lǐng)袖(特別是在歐洲)已經(jīng)開始重新審視對美國科技的依賴,并思考是否能夠快速開發(fā)出更好、本土化的替代方案。在人工智能領(lǐng)域,這一趨勢尤為明顯。
就拿社交媒體來說,這種現(xiàn)象表現(xiàn)得最為突出。研究巴西國內(nèi)科技政策的法學(xué)教授 Yasmin Curzi 告訴我:“自特朗普再次上任以來,我們已經(jīng)無法再指望美國的社交媒體平臺去做哪怕最基本的事情了?!?/p>
如今,社交媒體的內(nèi)容審查已經(jīng)大量采用自動化技術(shù),并嘗試利用先進的人工智能模型來識別有問題的帖子。
然而,在印度、南非、巴西等地,這些系統(tǒng)根本識別不出那些暴力內(nèi)容。顯然,人工智能在適應(yīng)不同文化和語言環(huán)境等方面還有很長的路要走。
歐洲非營利法律中心專門研究人工智能治理的人權(quán)律師 Marlena Wisniak 指出,當(dāng)前社交平臺若過度依賴大語言模型進行內(nèi)容審核,可能引發(fā)更嚴重的系統(tǒng)性風(fēng)險,情況將變得更糟。
她向我透露:“大語言模型本身的審核就漏洞百出,而這些審核不佳的大語言模型又被用來審核其他內(nèi)容,這簡直就是一個惡性循環(huán),錯誤不斷重復(fù)、不斷放大?!?/p>
造成這種情況的部分原因在于主流人工智能系統(tǒng)的“語言偏食癥”:它們主要是依靠英語國家的數(shù)據(jù)進行訓(xùn)練的,而且大多還是美式英語,所以一旦碰上當(dāng)?shù)卣Z言和語境,比如印度的方言俚語,就會顯得“水土不服”,表現(xiàn)欠佳。
哪怕是那些標榜能同時處理多種語言的多語言模型,在應(yīng)對非西方語言時同樣也會力不從心。
例如,有人對 ChatGPT 在醫(yī)療保健相關(guān)問題上的回復(fù)做了評估,發(fā)現(xiàn)由于中文和印地語在北美數(shù)據(jù)集中占比不高,它在這兩種語言上的回復(fù)質(zhì)量遠不如英語和西班牙語。
對于許多 RightsCon 的與會者來說,這恰恰證明了他們一直呼吁的觀點:不管是在社交媒體領(lǐng)域,還是在更廣泛的其他領(lǐng)域,都需要更多以社區(qū)為導(dǎo)向的人工智能開發(fā)模式
換句話說,想要打破這種技術(shù)霸權(quán),必須推動人工智能研發(fā)模式的“本土化轉(zhuǎn)型”,其中可能包括小語言模型、聊天機器人,以及針對特定用途、特定語言和文化背景設(shè)計的數(shù)據(jù)集。
比如,能識別俚語和詆毀性詞匯,理解混合多種語言甚至字母書寫的詞句,還能辨別“重新賦予意義的詞匯”(也就是曾經(jīng)的詆毀性詞匯,但如今被目標群體接納并賦予新意義)。
這些人工智能經(jīng)過訓(xùn)練后,可能會出現(xiàn)一些細分的創(chuàng)新形態(tài),比如具備文化感知能力的人工智能助手,或是輕量化的區(qū)域語言模型。
畢竟,這些往往是科技巨頭所忽視的“語言邊緣地帶”:基于英語訓(xùn)練的語言模型和自動化系統(tǒng)所忽略或誤分類的內(nèi)容。
對此,初創(chuàng)公司 Shhor AI 的創(chuàng)始人在 RightsCon 會議上主持了一場小組討論,介紹了公司新推出的、專注于印度本土方言的內(nèi)容審核應(yīng)用程序編程接口(API)。
實際上,許多類似的解決方案已經(jīng)發(fā)展了好多年,我們也曾報道過不少相關(guān)項目。比如,Mozilla 曾發(fā)起一個志愿者項目,專門收集非英語語言的訓(xùn)練數(shù)據(jù);還有一家名為 Lelapa AI 的初創(chuàng)公司,專注于為非洲語言開發(fā)人工智能技術(shù)。
甚至今年早些時候,我們還把“小語言模型”列入2025 年“十大突破性技術(shù)”榜單
盡管如此,現(xiàn)在的情況和以往有些不同。特朗普政府對美國科技公司的政策和行為產(chǎn)生了不小的影響,這顯然是一個重要原因,但背后還有其他因素在起作用。
一方面,近期關(guān)于語言模型的研究和開發(fā)已經(jīng)達到了一個臨界點,以往數(shù)據(jù)集的規(guī)模被認為是決定模型性能的關(guān)鍵,但現(xiàn)在這一點已經(jīng)不再那么重要了,這種變化意味著更多人有機會參與到語言模型的開發(fā)中來。
“毫不夸張地說,在一些資源較少的語言環(huán)境下,小語言模型完全有可能成為多語言模型的有力競爭者?!泵裰髋c技術(shù)中心訪問學(xué)者、專注于自動化內(nèi)容審核的研究員 Aliya Bhatia 指出。
另一方面,全球局勢也在悄然發(fā)生變化。就在 RightsCon 會議召開的前一周,巴黎剛剛舉辦了一場人工智能峰會,會上人工智能領(lǐng)域的國際競爭成為焦點議題。
從那以后,“主權(quán)人工智能”的概念開始受到廣泛關(guān)注,其核心是讓某個國家或組織能夠全面掌控人工智能開發(fā)的各個環(huán)節(jié)。
實際上,人工智能主權(quán)只是更廣泛“技術(shù)主權(quán)”的一部分,現(xiàn)如今,大家對“技術(shù)主權(quán)”的關(guān)注度越來越高,主要原因是人們對數(shù)據(jù)傳到美國后可能面臨的隱私和安全問題越來越擔(dān)憂。
去年 11 月,歐盟任命了首位負責(zé)技術(shù)主權(quán)、安全和民主事務(wù)的專員,并推進一項名為“歐洲堆棧(Euro Stack)”的計劃,簡單來說,這個計劃的目標是打造一套屬于歐洲自己的數(shù)字公共基礎(chǔ)設(shè)施。
雖然這個概念的定義還不太明確,但它可能涵蓋能源、水資源、云服務(wù)、芯片、軟件、數(shù)據(jù)和人工智能等多個領(lǐng)域,這些技術(shù)和資源對于現(xiàn)代社會的發(fā)展以及未來的創(chuàng)新都至關(guān)重要,然而目前,它們大多由美國的科技公司掌控。
歐洲的這個計劃在一定程度上借鑒了印度的經(jīng)驗,印度早在幾年前就推出了“印度堆棧(India Stack)”計劃,建立了一套頗為完善的數(shù)字公共基礎(chǔ)設(shè)施,其中還包括一個名為“Aadhaar”的生物識別信息管理系統(tǒng)。
除此之外,就在不久前,荷蘭的議員們通過了幾項新議案,旨在降低該國對美國科技公司的依賴。
這讓我想起了在 RightsCon 會議上與瑞士數(shù)字隱私公司 Proton 首席執(zhí)行官 Andy Yen 的對話。他提到,特朗普上任后的一系列舉動實際上“推動了歐洲采取行動,并讓歐洲意識到必須重新掌握技術(shù)自主權(quán)”。
“一方面,這是因為總統(tǒng)能夠影響科技公司的高層;另一方面,科技是關(guān)乎任何一個國家未來經(jīng)濟增長的關(guān)鍵因素?!彼忉屨f。
不過,僅靠政府的介入并不意味著語言模型中的包容性問題就能迎刃而解。
“我認為需要明確政府在這個過程中的角色和界限。如果政府開始指定哪些語言應(yīng)該得到優(yōu)先發(fā)展,或者試圖控制數(shù)據(jù)集中呈現(xiàn)的觀點,那可能會引發(fā)一系列問題。畢竟,用于訓(xùn)練模型的數(shù)據(jù),在很大程度上塑造了模型的認知和理解方式,并決定它的‘世界觀’。”Aliya Bhatia 指出。
目前,誰也說不準這一系列變化最終會走向何方,又有多少只是一時的炒作。但無論如何,這都是我們將持續(xù)關(guān)注的領(lǐng)域。
https://www.technologyreview.com/2025/03/25/1113696/why-the-world-is-looking-to-ditch-us-ai-models/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.