整理 | 燕珊
近日,多個(gè)開(kāi)源社區(qū)紛紛抱怨,由于 AI 公司大規(guī)模抓取其代碼托管、文檔等公共資源,項(xiàng)目基礎(chǔ)設(shè)施一度面臨“近似 DDoS 級(jí)”訪問(wèn)壓力,導(dǎo)致服務(wù)器頻繁宕機(jī)或性能嚴(yán)重下降。SourceHut 創(chuàng)始人 Drew DeVault、GNOME、KDE、Inkscape、Fedora 等多個(gè)社區(qū)都先后發(fā)出聲音,呼吁外界關(guān)注和正視這個(gè)問(wèn)題。
LLM 爬蟲(chóng)“泛濫成災(zāi)”
三天前,開(kāi)源代碼托管平臺(tái) SourceHut 的創(chuàng)始人兼 CEO Drew DeVault 在其最新博文《Please stop externalizing your costs directly into my face》中,憤怒地描述了他近月來(lái)與 AI 模型爬蟲(chóng)的“交鋒”經(jīng)歷:
每周我們都會(huì)經(jīng)歷數(shù)十次短暫的宕機(jī),為了阻止這個(gè)數(shù)字繼續(xù)上升,我每天要審查我們的防護(hù)措施好幾次。即使我偶爾想抽空做點(diǎn)別的工作,也常常不得不在所有報(bào)警響起時(shí)立馬放下手頭事務(wù),因?yàn)楝F(xiàn)有的防護(hù)措施又失效了。SourceHut 有好幾個(gè)高優(yōu)先級(jí)的任務(wù)已經(jīng)因此被耽擱了數(shù)周甚至數(shù)月。
他指出,這些抓取工具并不遵守“robots.txt”協(xié)議,也不會(huì)尊重流量限制,甚至?xí)L問(wèn)極耗費(fèi)系統(tǒng)資源的鏈接,比如git blame
、所有 Git 日志頁(yè)面等。更棘手的是,這些流量來(lái)自數(shù)以萬(wàn)計(jì)的 IP 地址、隨機(jī)化的 User-Agent 來(lái)“偽裝”成普通用戶流量,給識(shí)別與攔截帶來(lái)了極大難度。
DeVault 在博文中坦言,近期他自己有 20%~100% 的工作時(shí)間都被迫花在與這些 LLM 爬蟲(chóng)的對(duì)抗上:“我們有好幾個(gè)高優(yōu)先級(jí)任務(wù)被耽擱了數(shù)周甚至數(shù)月,因?yàn)槊看蜗牖氐秸5拈_(kāi)發(fā)或管理上,都被服務(wù)器警報(bào)打斷——我們的防御措施又失效了。”
同時(shí),他指出,其社區(qū)的真實(shí)用戶也會(huì)因此受到影響——“我們的防護(hù)策略無(wú)法可靠地區(qū)分真實(shí)用戶與爬蟲(chóng)。”
開(kāi)源界的集體困境
DeVault 特別提到,他的“系統(tǒng)管理員朋友們”其實(shí)都遭遇了相同的困擾,LLM 爬蟲(chóng)令所有開(kāi)源項(xiàng)目措手不及。每次他跟朋友出去喝酒或吃飯,只要有幾個(gè)系統(tǒng)管理員在場(chǎng),大家很快就會(huì)開(kāi)始抱怨這些爬蟲(chóng),然后互相打聽(tīng)對(duì)方有沒(méi)有找到什么“一勞永逸”的解決方案。
的確,其他開(kāi)源社區(qū)也面臨相似情況。最近 KDE 大量“偽裝成 Microsoft Edge”瀏覽器的惡意流量或爬蟲(chóng);GNOME 自去年 11 月以來(lái)就一直遇到問(wèn)題,被迫實(shí)施臨時(shí)流量限制,限制未登錄用戶查看合并請(qǐng)求和提交記錄,大幅影響了真實(shí)的匿名訪客。
GNOME 最終部署了一種名為“Anubis”的防御工具。該系統(tǒng)會(huì)向訪問(wèn)者提出一次 Proof-of-Work 挑戰(zhàn),要求瀏覽器先完成一定量的計(jì)算再呈交結(jié)果。只有闖關(guān)成功,才能訪問(wèn)網(wǎng)站。然而,這卻難免波及普通用戶。如果某個(gè)鏈接在聊天室或新聞社區(qū)里被頻繁點(diǎn)擊,系統(tǒng)可能瞬間提高難度,導(dǎo)致普通用戶的等待時(shí)間可能長(zhǎng)達(dá)數(shù)十秒乃至數(shù)分鐘。
在 Mastodon 上,據(jù) GNOME 管理員所分享的數(shù)據(jù),在某個(gè)時(shí)段的 2.5 小時(shí)里,他們總共收到約 8.1 萬(wàn)次請(qǐng)求,僅有 3% 成功通過(guò) Anubis 驗(yàn)證,其余 97% 被判定為爬蟲(chóng)。“雖然 Anubis 阻止了爬蟲(chóng)洪流,但也給正常用戶帶來(lái)不少困擾。”
不止 GNOME 與 KDE。Fedora 社區(qū)為保持其 Pagure 代碼托管平臺(tái)的穩(wěn)定,不得已屏蔽了大量可疑 IP 段。由于某些 AI 爬蟲(chóng)來(lái)自同一國(guó)家的海量 IP,F(xiàn)edora 一度只好封禁整個(gè)國(guó)家(如巴西)的訪問(wèn)請(qǐng)求,這種“一刀切”也引發(fā)社區(qū)用戶對(duì)誤傷的擔(dān)憂。
Inkscape 項(xiàng)目上周也表示,大量 AI 爬蟲(chóng)使用“假冒瀏覽器 UA”或完全無(wú)視網(wǎng)站防爬協(xié)議。為了維持網(wǎng)站可用性,相關(guān)維護(hù)者被迫持續(xù)擴(kuò)充“Prodigius”級(jí)別的黑名單;甚至 Frama 軟件公司的 BigGrizzly 也曾被一個(gè)惡意的 LLM 爬蟲(chóng)淹沒(méi),并建立了一個(gè)包含 46 萬(wàn)個(gè)可疑 IP 的列表。
對(duì)此進(jìn)行更全面的嘗試是“ai.robots.txt”項(xiàng)目,這是一個(gè)與 AI 公司相關(guān)的網(wǎng)絡(luò)爬蟲(chóng)的開(kāi)放列表。他們提供了一個(gè)實(shí)施 Robots Exclusion Protocol 的 robots.txt 和一個(gè) .htaccess 文件,該文件在收到列表中任何 AI 爬蟲(chóng)的請(qǐng)求時(shí)都會(huì)返回錯(cuò)誤頁(yè)面。
開(kāi)源去中心化社群 Diaspora 的維護(hù)者 Dennis Schubert 幾個(gè)月前吐槽了相似的經(jīng)歷,他說(shuō)“查看流量日志讓他非常生氣”。
他當(dāng)時(shí)提到,過(guò)去 60 天內(nèi) Diaspora 的網(wǎng)站與文檔服務(wù)共收到 1130 萬(wàn)次請(qǐng)求,其中近 70% 來(lái)自 OpenAI 的 GPTBot、Amazonbot、ClaudeBot 等 AI 爬蟲(chóng)。
“它們不僅反復(fù)抓取同樣的頁(yè)面,還爬到維基的每條歷史編輯記錄、每次 diff 修改上——甚至每 6 小時(shí)就要來(lái)一遍!它們對(duì) robots.txt 完全視而不見(jiàn),頻繁換 IP、偽造普通瀏覽器 UA,搞得服務(wù)器性能飆升、宕機(jī)頻發(fā)。”
Schubert 指出,對(duì)比之下,Googlebot、Bingbot 等傳統(tǒng)搜索引擎抓取非常克制,占比僅 0.14%,不會(huì)一遍又一遍地獲取相同“毫無(wú)價(jià)值的內(nèi)容”。他表示,這些 “不守規(guī)矩的 LLM 爬蟲(chóng)簡(jiǎn)直對(duì)整個(gè)互聯(lián)網(wǎng)發(fā)動(dòng)了 DDoS 攻擊”,讓運(yùn)維人員疲憊不堪。
開(kāi)源平臺(tái) Read the Docs 去年曾公開(kāi)過(guò)這樣一個(gè)數(shù)字,屏蔽所有 AI 爬蟲(chóng)后,其網(wǎng)站流量從每天 800GB 直接降至 200GB,節(jié)省了約 1500 美元 / 月的運(yùn)營(yíng)成本,“可見(jiàn)這類流量之巨”。
呼吁更多關(guān)注與自律
對(duì) DeVault 來(lái)說(shuō),這已經(jīng)不是第一次被迫替大機(jī)構(gòu)或投機(jī)分子“背鍋”。他在博文最后抨擊了包括加密貨幣、谷歌團(tuán)隊(duì)、硅谷 AI 公司在內(nèi)的多方,認(rèn)為他們統(tǒng)統(tǒng)在把自己的成本“推給別人”,而這一切都在消耗社會(huì)公共資源,尤其是像 SourceHut 這樣的中小型平臺(tái)。
“我已經(jīng)受夠了,這些人一個(gè)勁兒地把成本轉(zhuǎn)嫁到我臉上,讓我疲于應(yīng)對(duì)。要么去干點(diǎn)對(duì)社會(huì)有益的事,要么就滾遠(yuǎn)點(diǎn),別來(lái)動(dòng)我的服務(wù)器。在系統(tǒng)管理員們集體革命之前,拿你們那些數(shù)以百億計(jì)的資金為公眾做點(diǎn)好事吧。”DeVault 寫(xiě)道。
總的來(lái)看,開(kāi)源社區(qū)似乎進(jìn)退兩難。一方面,開(kāi)源文化強(qiáng)調(diào)開(kāi)放協(xié)作,不可能對(duì)普通用戶關(guān)閉文檔、倉(cāng)庫(kù)訪問(wèn);另一方面,社區(qū)往往沒(méi)有雄厚的商業(yè)贊助來(lái)維持昂貴的帶寬和服務(wù)器,現(xiàn)階段也只能依賴 PoW、黑名單、甚至大范圍封禁等手段來(lái)暫時(shí)緩解問(wèn)題。
面對(duì)來(lái)勢(shì)洶洶的 AI 爬蟲(chóng)浪潮,各大開(kāi)源項(xiàng)目都在積極探索更高效、對(duì)普通用戶更友好的解決方案。但無(wú)論如何,這都會(huì)是一個(gè)長(zhǎng)期博弈的過(guò)程,涉及到行業(yè)規(guī)范、AI 爬蟲(chóng)自律以及社區(qū)共同行動(dòng)。
https://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/
https://drewdevault.com/2025/03/17/2025-03-17-Stop-externalizing-your-costs-on-me.html
https://pod.geraspora.de/posts/17342163
聲明:本文為 InfoQ 整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。
應(yīng)屆生親測(cè) DeepSeek 等 5 大 AI 寫(xiě)論文!1 小時(shí)速成框架 / 文獻(xiàn) / 排版?
3 月 21 日 19 點(diǎn)直播:AI 協(xié)同指南|工具包福利
?DDL 急救!掃碼預(yù)約領(lǐng)《DeepSeek 知識(shí)庫(kù)》,開(kāi)播提醒不遲到
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.