企業(yè)選擇開源或閉源是基于商業(yè)判斷,開源并非絕對優(yōu)于閉源,閉源也并非絕對劣于開源。
文|宋欣鴻 張謙 哀佳
ID | BMR2004
在人工智能蓬勃發(fā)展的浪潮中,各類獨(dú)具特色的大模型產(chǎn)品層出不窮,關(guān)于開源與閉源的話題成為行業(yè)焦點(diǎn),其背后的數(shù)據(jù)安全問題開始被審慎重視。
“主張閉源派”認(rèn)為,開源大模型存在數(shù)據(jù)“原罪”,訓(xùn)練過程中的數(shù)據(jù)可能未經(jīng)授權(quán)、涉及隱私或版權(quán)問題,容易引發(fā)法律和倫理問題,甚至還有數(shù)據(jù)泄露的風(fēng)險(xiǎn),因?yàn)殚_源通常允許訪問和修改代碼,會存在惡意使用的問題。
“主張開源派”則認(rèn)為,雖然閉源在數(shù)據(jù)隱私保護(hù)上更好,但開源的透明度更高,社區(qū)可以參與審查。而且隨著開源的聲音越來越大,主流趨勢背后的問題不容忽視。
面對數(shù)據(jù)安全這一全球性挑戰(zhàn),國家、企業(yè)和用戶應(yīng)如何各司其職、協(xié)同應(yīng)對?在人工智能高速發(fā)展的進(jìn)程中,我們又應(yīng)以何種心態(tài)和眼光看待隱藏其背后的數(shù)據(jù)安全問題?
01
開源背后的數(shù)據(jù)安全問題
2025年初,DeepSeek遭遇了一場來自海外的大規(guī)模惡意攻擊。在DDoS攻擊后,DeepSeek又被曝出嚴(yán)重的跨站腳本(XSS)漏洞。這一漏洞源于對postMessage事件的不當(dāng)處理,攻擊者利用該漏洞,在未進(jìn)行適當(dāng)來源驗(yàn)證或輸入清理的情況下,將惡意腳本注入文檔上下文。這意味著,攻擊者不僅可以劫持用戶會話、竊取敏感信息,甚至還能發(fā)起網(wǎng)絡(luò)釣魚攻擊。緊接著,Wiz Research發(fā)現(xiàn)DeepSeek的基礎(chǔ)設(shè)施存在重大安全漏洞,其可公開訪問的ClickHouse數(shù)據(jù)庫暴露了大量敏感數(shù)據(jù),這一事件再次敲響了數(shù)據(jù)安全的警鐘。
通常情況下,模型的訓(xùn)練數(shù)據(jù)集一旦公開,未經(jīng)適當(dāng)匿名化或脫敏處理,容易導(dǎo)致隱私泄露,且其代碼和數(shù)據(jù)的可獲取性較高,可能面臨被惡意利用的風(fēng)險(xiǎn)。此外,開源項(xiàng)目的安全維護(hù)責(zé)任分散在社區(qū)成員之間,可能導(dǎo)致修復(fù)速度和質(zhì)量不一致,用戶需要自行承擔(dān)部分安全風(fēng)險(xiǎn),例如代碼漏洞或數(shù)據(jù)濫用。
2025年2月23日,清華大學(xué)與瑞萊智慧聯(lián)合團(tuán)隊(duì)推出了一款創(chuàng)新的大語言模型——RealSafe-R1。該模型基于DeepSeek-R1進(jìn)行了深度優(yōu)化和后訓(xùn)練,在確保性能穩(wěn)定的同時(shí),實(shí)現(xiàn)了安全性的顯著提升,甚至優(yōu)于一些被認(rèn)為表現(xiàn)卓越的閉源大模型,如Claude3.5和GPT-4o。
RealSafe-R1的問世,不僅為開源大模型的安全發(fā)展提供了創(chuàng)新性解決方案,也為整個(gè)行業(yè)在數(shù)據(jù)安全治理方面開辟了新的思路。
中國社會科學(xué)院法學(xué)研究所研究員姚佳認(rèn)為:“開源與閉源是知識產(chǎn)權(quán)領(lǐng)域的重要問題,涉及知識共享與商業(yè)保護(hù)之間的平衡。開源實(shí)際上是一個(gè)反知識產(chǎn)權(quán)的制度,其雖有助于知識傳播,但也面臨開源許可證復(fù)雜、法律壁壘等問題,甚至存在‘許可證叢林’等現(xiàn)象。”
相比之下,閉源模型則受到嚴(yán)格控制與專業(yè)維護(hù),數(shù)據(jù)使用和存儲在企業(yè)內(nèi)部受到嚴(yán)格管控,降低了泄露風(fēng)險(xiǎn),并由專業(yè)團(tuán)隊(duì)集中管理,及時(shí)修復(fù)漏洞。
北京大學(xué)信息管理系教授周慶山認(rèn)為:“我們形容閉源的人工智能是個(gè)黑箱,可以輸出結(jié)果,但是不知道中間是怎么回事。人工智能的發(fā)展強(qiáng)調(diào)可解釋性和透明性,開源能更好地讓我們了解大模型運(yùn)行上的一些參數(shù)、邏輯等等。所以,開源可能是未來的大趨勢。如今的立法或者倫理標(biāo)準(zhǔn)都特別強(qiáng)調(diào),數(shù)據(jù)治理過程中的每個(gè)環(huán)節(jié)都要越透明越好。立法上也應(yīng)該盡可能地往這個(gè)方向引導(dǎo)。比如說現(xiàn)在AI生成的內(nèi)容,會要求提示‘本內(nèi)容是由AI生成’。深度合成的數(shù)據(jù)也要盡可能做標(biāo)注和標(biāo)識,數(shù)據(jù)來源要有一個(gè)必要的備案。”
姚佳進(jìn)一步指出,在開源社區(qū)中,用戶需警惕貢獻(xiàn)者可能存在的侵權(quán)風(fēng)險(xiǎn),因?yàn)槭褂们謾?quán)數(shù)據(jù)也可能導(dǎo)致自身存在侵權(quán)風(fēng)險(xiǎn)。開源涉及社區(qū)數(shù)據(jù)、技術(shù)、代碼等的免費(fèi)使用,在這個(gè)過程中要注意前序的、已有的作品所享有的權(quán)利保護(hù),即注意潛在的侵權(quán)風(fēng)險(xiǎn)。開源社區(qū)往往都會對用戶提供開源協(xié)議,用戶需注意遵守相關(guān)許可或協(xié)議,比如,對一些不得用于商業(yè)用途的限制,應(yīng)嚴(yán)格遵守。若國家有強(qiáng)制性規(guī)定,也必須嚴(yán)格遵守。
“企業(yè)選擇開源或閉源主要是基于商業(yè)判斷,開源并非絕對優(yōu)于閉源,閉源也并非絕對劣于開源。”姚佳說。
02
用法律應(yīng)對數(shù)據(jù)安全挑戰(zhàn)
在人工智能的新場景下,法律似乎面臨著諸多挑戰(zhàn)。
2024年,全球AIGC平臺侵權(quán)第一案中,被告方Tab網(wǎng)站(化名)通過AI生成與奧特曼形象實(shí)質(zhì)性相似的圖片,并通過會員充值和“算力”購買獲利。該案件的爭議焦點(diǎn)是該AI公司是否侵犯了原告的復(fù)制權(quán)、改編權(quán)和信息網(wǎng)絡(luò)傳播權(quán)。最終法院認(rèn)定被告侵犯了原告的復(fù)制權(quán)和改編權(quán),判決其停止侵權(quán)行為并賠償原告經(jīng)濟(jì)損失10000元。
法院亦提出,生成式AI服務(wù)提供者應(yīng)采取一定的技術(shù)性措施來避免生成與權(quán)利人作品實(shí)質(zhì)性相似的圖片。同時(shí),AIGC平臺應(yīng)盡到合理的注意義務(wù),包括建立投訴舉報(bào)機(jī)制、提示潛在風(fēng)險(xiǎn)、進(jìn)行顯著標(biāo)識等。
當(dāng)新的應(yīng)用場景不斷涌現(xiàn),如生成式AI、自動駕駛、醫(yī)療AI等,現(xiàn)有法律體系由于立法的滯后性難以及時(shí)覆蓋和規(guī)范這些新興領(lǐng)域。
姚佳指出,“歐盟的《人工智能法案》明確指出,對個(gè)人數(shù)據(jù)的保護(hù)仍然還要遵循GDPR(《通用數(shù)據(jù)保護(hù)條例》)的一系列相關(guān)規(guī)則。歐盟的《人工智能法案》當(dāng)中沒有創(chuàng)設(shè)任何新的關(guān)于個(gè)人數(shù)據(jù)保護(hù)的規(guī)則。”
人工智能的復(fù)雜技術(shù)特性(如算法黑箱、數(shù)據(jù)處理)使得執(zhí)法部門難以有效監(jiān)管和取證,尤其是涉及算法偏見、數(shù)據(jù)安全等問題時(shí)。人工智能技術(shù)的快速迭代要求執(zhí)法部門具備動態(tài)監(jiān)管能力,及時(shí)調(diào)整監(jiān)管策略和手段,以應(yīng)對新的風(fēng)險(xiǎn)和問題。
姚佳認(rèn)為:“對于人工智能訓(xùn)練數(shù)據(jù)方面,從法律適用角度看,仍需依據(jù)著作權(quán)、商業(yè)秘密、個(gè)人信息保護(hù)等法律對數(shù)據(jù)進(jìn)行保護(hù)。對于數(shù)據(jù)跨境流動,在遵守現(xiàn)有法律的基礎(chǔ)上,我國通過網(wǎng)信辦的《促進(jìn)和規(guī)范數(shù)據(jù)跨境流動規(guī)定》等方案,推動數(shù)據(jù)流動規(guī)范化。此外,國家數(shù)據(jù)局還致力于建立數(shù)據(jù)基礎(chǔ)制度,促進(jìn)數(shù)據(jù)作為生產(chǎn)要素的高效利用,這在與歐美國家對比中顯得尤為突出。”
周慶山進(jìn)一步表示:“人工智能深度合成的情況是從無到有的,以前信息是靜態(tài)的,現(xiàn)在是交互的或者說是人工智能合成的。從保護(hù)個(gè)人數(shù)據(jù)方面的法律來看人工智能合成的內(nèi)容顯然是不夠的。未來需要在現(xiàn)有立法的基礎(chǔ)上進(jìn)行完善。”
從完善立法層面來看,周慶山提到了復(fù)合型人才和跨學(xué)科團(tuán)隊(duì)的重要性,“未來法律領(lǐng)域需要既掌握人工智能知識,又掌握法律知識的復(fù)合型人才,在執(zhí)法、立法等方面,通過跨學(xué)科的團(tuán)隊(duì)相互配合來解決問題。”
姚佳提到,發(fā)展與監(jiān)管始終是一個(gè)難以絕對同頻的永恒問題。企業(yè)雖然在數(shù)據(jù)收集、利用方面有更多需求,但監(jiān)管方面也不可能完全放開對作品、個(gè)人信息方面的收集、利用,因?yàn)橐惨紤]更多的利益平衡,同時(shí)也并非所有企業(yè)都能達(dá)到高標(biāo)準(zhǔn)。
“這個(gè)過程就像拉鎖、齒輪一樣,能不能對上,怎么對?需要在實(shí)踐中不斷磨合和發(fā)展。”姚佳說。
03
企業(yè)層面需對癥下藥
隨著越來越多的大模型逐步落地到各垂直行業(yè),對于數(shù)據(jù)安全的監(jiān)管難度也越來越復(fù)雜。
周慶山認(rèn)為,不同行業(yè)之間的數(shù)據(jù)安全監(jiān)管難度存在差別,“一些以數(shù)據(jù)來驅(qū)動的企業(yè),比如網(wǎng)約車行業(yè)、快遞行業(yè)、醫(yī)療行業(yè),對于數(shù)據(jù)安全監(jiān)管會更加重視。面對諸多問題,除了政策上的管控,也可以通過技術(shù)手段來進(jìn)行應(yīng)用,用智能技術(shù)治理技術(shù)濫用,用人工智能對抗人工智能。”
“現(xiàn)在我們也特別強(qiáng)調(diào)數(shù)據(jù)技術(shù)治理,這些人工智能產(chǎn)品本身就能識別侵權(quán)、造假、虛假信息,可以起到安全防護(hù)作用,并從產(chǎn)業(yè)角度提供一個(gè)預(yù)判。如今的信息安全產(chǎn)業(yè)是個(gè)很大的產(chǎn)業(yè),不光是技術(shù)產(chǎn)業(yè),所有公司都得配備這些產(chǎn)品,從硬件到軟件,再到開發(fā)各種應(yīng)用等。通過人工智能去識別、研判、抓取、分析,把安全技術(shù)用在安全防護(hù)上。”周慶山指出。
除此之外,區(qū)塊鏈的不可篡改和透明性可用于數(shù)據(jù)治理,確保數(shù)據(jù)的完整性和可信度,可以通過智能合約實(shí)現(xiàn)自動化的數(shù)據(jù)訪問控制。
數(shù)據(jù)脫敏技術(shù)則可以隱藏敏感信息,確保數(shù)據(jù)共享和使用過程中的安全性。
通過計(jì)算機(jī)算法、模型或模擬技術(shù)合成的數(shù)據(jù),并非直接來源于現(xiàn)實(shí)世界的實(shí)際觀測或?qū)嶒?yàn),但能夠反映真實(shí)數(shù)據(jù)的統(tǒng)計(jì)特征、結(jié)構(gòu)和分布。
而隱私計(jì)算技術(shù)(如多方安全計(jì)算、同態(tài)加密)可以在數(shù)據(jù)不離開本地的情況下進(jìn)行模型訓(xùn)練和數(shù)據(jù)共享,從而減少數(shù)據(jù)泄露風(fēng)險(xiǎn)。
值得注意的是,安全飛地(如 Intel SGX 或 AMD SEV)可以為 AI 模型提供隔離的執(zhí)行環(huán)境,防止數(shù)據(jù)和模型被篡改。現(xiàn)代 DLP 解決方案結(jié)合了人工智能和數(shù)據(jù)安全態(tài)勢管理(DSPM),能夠?qū)崟r(shí)檢測和阻止未經(jīng)授權(quán)的數(shù)據(jù)傳輸,降低誤報(bào)率,同時(shí)通過行為分析檢測異常活動。
例如,Cyera 的 DLP 解決方案利用 AI 和 DSPM 的結(jié)合,支持實(shí)時(shí)數(shù)據(jù)分類和異常檢測,有效保護(hù)數(shù)據(jù)安全。
此外,周慶山認(rèn)為,提升數(shù)據(jù)質(zhì)量與可用性,建設(shè)、完善數(shù)據(jù)源可以有效加強(qiáng)數(shù)據(jù)隱私與安全保障、推動數(shù)據(jù)標(biāo)準(zhǔn)化、激發(fā)數(shù)據(jù)創(chuàng)新與應(yīng)用、降低數(shù)據(jù)交易成本。
數(shù)據(jù)源建設(shè)能夠?yàn)閿?shù)字經(jīng)濟(jì)、社會治理、公共服務(wù)等領(lǐng)域提供高質(zhì)量的數(shù)據(jù)支持,從而充分釋放數(shù)據(jù)作為新型生產(chǎn)要素的價(jià)值,改善當(dāng)前公開數(shù)據(jù)存在的質(zhì)量差、隱私保護(hù)不足、供需不匹配等問題。
以醫(yī)學(xué)領(lǐng)域?yàn)槔瑖庖呀?jīng)有NITRC-IR(國家信息技術(shù)研究中心圖像存儲庫)、HCP(Human Connectome Project,人腦連接組計(jì)劃)、OpenNeuro等腦神經(jīng)方面的數(shù)據(jù)平臺。國內(nèi)亦有國家人腦組織資源庫數(shù)據(jù)平臺、中國人腦功能圖譜數(shù)據(jù)庫、腦科學(xué)多模態(tài)數(shù)據(jù)庫等醫(yī)學(xué)數(shù)據(jù)庫。
“平臺可以規(guī)范數(shù)據(jù)安全保護(hù)的問題,哪些數(shù)據(jù)可以開放?開放的流程是什么樣的?出現(xiàn)問題的時(shí)候如何追責(zé)?都有專門的規(guī)范。未來這類平臺會越來越多,將涵蓋交通、金融、文化、農(nóng)業(yè)等各行各業(yè)。”周慶山如是說。
來源 | 2025年4月刊
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.