維基媒體基金會是維基百科和十幾個其他眾包知識項目的管理組織,該基金會周三表示,自 2024 年 1 月以來,從維基共享資源下載多媒體的帶寬消耗激增了 50%。
該公司在周二的一篇博客文章中寫道,其原因并非源于渴求知識的人類需求不斷增長,而是源于想要訓練人工智能模型的自動化、數(shù)據(jù)饑渴的抓取工具。
帖子寫道:“我們的基礎設施是為了在高關注度事件期間承受來自人類的突然流量激增而建立的,但爬蟲機器人產(chǎn)生的流量是前所未有的,并且?guī)砹嗽絹碓酱蟮娘L險和成本。”
維基共享資源是一個可自由訪問的圖像、視頻和音頻文件存儲庫,這些文件可在開放許可下使用或屬于公共領域。
深入研究后,維基百科表示,最“昂貴”的流量(即就所消費內容類型而言資源最密集的流量)中,近三分之二(65%)來自機器人。然而,只有 35% 的整體頁面瀏覽量來自這些機器人。根據(jù)維基百科的說法,造成這種差異的原因是,經(jīng)常訪問的內容在其緩存中更靠近用戶,而其他不經(jīng)常訪問的內容則存儲在更遠的“核心數(shù)據(jù)中心”,從那里提供內容的成本更高。這是機器人通常會尋找的內容類型。
“雖然人類讀者傾向于關注特定的(通常是相似的)主題,但爬蟲機器人傾向于‘批量閱讀’大量頁面并訪問不太受歡迎的頁面,”維基百科寫道。“這意味著這些類型的請求更有可能被轉發(fā)到核心數(shù)據(jù)中心,這使得我們的資源消耗更加昂貴。”
總而言之,維基媒體基金會的網(wǎng)站可靠性團隊不得不花費大量時間和資源來阻止爬蟲程序,以避免對普通用戶造成干擾。而這一切都是在考慮基金會面臨的云成本之前。
事實上,這代表了一種快速增長的趨勢的一部分,這種趨勢正在威脅開放互聯(lián)網(wǎng)的存在。上個月,軟件工程師兼開源倡導者Drew DeVault 抱怨人工智能爬蟲忽略了旨在抵御自動流量的“robots.txt”文件。而“務實工程師”Gergely Orosz上周也抱怨說,來自 Meta 等公司的人工智能爬蟲增加了他自己項目的帶寬需求。
盡管開源基礎設施尤其處于風口浪尖,但開發(fā)人員正在以“智慧和報復”進行反擊。一些科技公司也在盡自己的努力解決這個問題——例如,Cloudflare 最近推出了 AI Labyrinth,它使用人工智能生成的內容來減慢爬蟲的速度。
然而,這更像是一場貓捉老鼠的游戲,最終可能迫使許多出版商躲在登錄和付費墻的后面——這對當今使用網(wǎng)絡的每個人都是有害的。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.