昨天看到一個(gè)文章,說(shuō)是一個(gè)用來(lái)托管Wiki、論壇的網(wǎng)絡(luò)基礎(chǔ)設(shè)施似乎受到了攻擊,運(yùn)行速度和峰值負(fù)載都出了問(wèn)題。
負(fù)責(zé)人丹尼斯·舒伯特趕緊去查看流量日志,發(fā)現(xiàn)在過(guò)去的60天內(nèi),收到了1130 萬(wàn)個(gè)請(qǐng)求,平均每秒2.19個(gè),這并不多。
但是一看這些請(qǐng)求的User Agent,丹尼斯氣得鼻子都歪了。
(碼農(nóng)翻身老劉注:如果對(duì)這些奇奇怪怪的User Agent感到好奇的話,可以看看我之前寫的漫畫(huà):)
丹尼斯一合計(jì),70%的流量都來(lái)自O(shè)penAI、亞馬遜、Antropic、Facebook這些大名鼎鼎的人工智能巨頭。
更氣人的是,這些巨頭們的爬蟲(chóng)不是訪問(wèn)了一次就走了,它們每隔6小時(shí)就會(huì)回來(lái)再爬一次!
它們完全無(wú)視了robots.txt(規(guī)定了搜索引擎抓取工具可以訪問(wèn)網(wǎng)站上的哪些網(wǎng)址),什么數(shù)據(jù)都要!
ChatGPT 和 Amazon 甚至爬取了 wiki 的整個(gè)編輯歷史!每個(gè)wiki頁(yè)面的每次編輯都被它們記錄下來(lái),這到底要干什么?難道是想了解Wiki上的文本隨著時(shí)間如何變化?
這種行為讓自家系統(tǒng)和數(shù)據(jù)庫(kù)負(fù)載極重,用戶訪問(wèn)緩慢。
丹尼斯趕緊想招應(yīng)對(duì),他嘗試去限制爬蟲(chóng)的訪問(wèn)速率,但是巨頭的網(wǎng)絡(luò)爬蟲(chóng)會(huì)迅速地改變IP。
然后又根據(jù)User Agent 去阻止爬蟲(chóng)訪問(wèn),但它們會(huì)使用一個(gè)非網(wǎng)絡(luò)爬蟲(chóng)的User Agent。
這實(shí)在是沒(méi)辦法了,丹尼斯說(shuō),這簡(jiǎn)直是對(duì)整個(gè)互聯(lián)網(wǎng)的DDoS!
這個(gè)文章被發(fā)到了HackerNews,立刻成為熱帖,引發(fā)了強(qiáng)烈的共鳴。
網(wǎng)友markerz說(shuō):
我的網(wǎng)站被Facebook的 AI 機(jī)器人徹底摧毀了,它的請(qǐng)求越來(lái)越多,直到我的服務(wù)器崩潰....我也修改了robots.txt,但是AI機(jī)器人無(wú)視了它...
網(wǎng)友buro9說(shuō):
我的服務(wù)器被Cluade訪問(wèn)了480萬(wàn)次,被Amazon訪問(wèn)了39萬(wàn)次,ChatGPT訪問(wèn)了14.8萬(wàn)次
網(wǎng)友Saris說(shuō):
我有一個(gè)內(nèi)容不經(jīng)常變化的網(wǎng)站(公司網(wǎng)站),總共有幾百頁(yè)面。但同一個(gè)人工智能機(jī)器人每天會(huì)多次掃描整個(gè)網(wǎng)站,真不明白它們?yōu)槭裁匆@么干。
這些爬蟲(chóng)帶來(lái)的危害顯而易見(jiàn),首先讓這些網(wǎng)站不堪重負(fù),速度變慢,其次會(huì)增加網(wǎng)站的運(yùn)營(yíng)費(fèi)用。
更有趣的是,這些網(wǎng)站中有大量是部署在亞馬遜、Google,微軟的云上的,現(xiàn)在巨頭們正在向自己的客戶發(fā)起“DDoS攻擊”并收取流量費(fèi)用。
網(wǎng)友joshdavham說(shuō):
幾個(gè)月前,我在GCP上部署了一個(gè)小型應(yīng)用,這些愚蠢的AI機(jī)器人讓我花掉了一大筆錢。
網(wǎng)友oriettaxx說(shuō):
上周我們不得不把AWS-RDS數(shù)據(jù)庫(kù)和CPU配置翻番,最大的流量就是AmazonBot,這個(gè)AmazonBot到底在干什么?!
看到這些消息,我心里是有些疑問(wèn)的,這些都是IT巨頭,如果它們?yōu)榱双@得足夠的數(shù)據(jù)來(lái)訓(xùn)練人工智能,忽視r(shí)obot.txt這些業(yè)界的規(guī)范,那可真是集體放棄契約精神,不顧道德底線了!
我甚至想,是不是有人打著這些大廠的User Agent的旗號(hào)在爬數(shù)據(jù)呢?我看不到這些爬蟲(chóng)的IP,很難做成準(zhǔn)確的判斷。
人工智能巨頭們創(chuàng)造了數(shù)萬(wàn)億美元的市值,如果真的是不擇手段地把別人的數(shù)據(jù)拿走,真的是太過(guò)分了。
“利潤(rùn)私有化,損失社會(huì)化”,這就是活生生的案例。
前一段有個(gè)說(shuō)法叫做“互聯(lián)網(wǎng)已死”,認(rèn)為網(wǎng)上大部分內(nèi)容都是機(jī)器人產(chǎn)生的,如果這個(gè)是真的,那就慘了,機(jī)器人創(chuàng)建的內(nèi)容,被機(jī)器人抓取,然后用于訓(xùn)練大模型,AI機(jī)器人再到網(wǎng)上發(fā)帖...... 這樣循環(huán)下去,互聯(lián)網(wǎng)就真的死了。
難道就沒(méi)有辦法來(lái)對(duì)于這些沒(méi)有底線的AI爬蟲(chóng)了嗎?
有矛就有盾,有種辦法叫做Tarpit (焦油坑),本意是讓動(dòng)物會(huì)陷入其中并慢慢沉入水面下。這是一種反向延遲攻擊,AI爬蟲(chóng)連接后,你的網(wǎng)站要非常緩慢地輸出內(nèi)容(速度也不能太慢,防止AI爬蟲(chóng)超時(shí)而斷開(kāi)連接)。當(dāng)然,輸出應(yīng)該是垃圾。
大模型很厲害,自然也擁有識(shí)別垃圾的能力,有人提出了一種更加高級(jí)的辦法,把所有AI爬蟲(chóng)的請(qǐng)求都路由到另外一個(gè)靜態(tài)的、可以緩存的網(wǎng)頁(yè)去。
這個(gè)網(wǎng)頁(yè)可以像論壇的頁(yè)面,內(nèi)容由較老版本的大模型來(lái)生成,讓其中包含一些微妙的事實(shí)錯(cuò)誤,相當(dāng)于對(duì)大模型“投毒”了。
還有人出了更狠的點(diǎn)子:當(dāng)監(jiān)測(cè)到是AI 爬蟲(chóng)請(qǐng)求以后,提供的內(nèi)容需要JavaScript才能執(zhí)行,然后在JavaScript中進(jìn)行挖礦......
參考資料:
https://pod.geraspora.de/posts/17342163
https://news.ycombinator.com/item?id=42549624
全文完,覺(jué)得不錯(cuò)的話點(diǎn)個(gè)贊或者在看吧!
近期爆文:
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.