網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

國(guó)外這些IT巨頭，都這么“不要臉”了嗎？

2025-01-07 08:59:22　來(lái)源: 碼農(nóng)翻身

河南舉報(bào)

分享至

昨天看到一個(gè)文章，說(shuō)是一個(gè)用來(lái)托管Wiki、論壇的網(wǎng)絡(luò)基礎(chǔ)設(shè)施似乎受到了攻擊，運(yùn)行速度和峰值負(fù)載都出了問(wèn)題。

負(fù)責(zé)人丹尼斯·舒伯特趕緊去查看流量日志，發(fā)現(xiàn)在過(guò)去的60天內(nèi)，收到了1130 萬(wàn)個(gè)請(qǐng)求，平均每秒2.19個(gè)，這并不多。

但是一看這些請(qǐng)求的User Agent，丹尼斯氣得鼻子都歪了。

（碼農(nóng)翻身老劉注：如果對(duì)這些奇奇怪怪的User Agent感到好奇的話，可以看看我之前寫的漫畫(huà)：）

丹尼斯一合計(jì)，70%的流量都來(lái)自O(shè)penAI、亞馬遜、Antropic、Facebook這些大名鼎鼎的人工智能巨頭。

更氣人的是，這些巨頭們的爬蟲(chóng)不是訪問(wèn)了一次就走了，它們每隔6小時(shí)就會(huì)回來(lái)再爬一次！

它們完全無(wú)視了robots.txt（規(guī)定了搜索引擎抓取工具可以訪問(wèn)網(wǎng)站上的哪些網(wǎng)址），什么數(shù)據(jù)都要！

ChatGPT 和 Amazon 甚至爬取了 wiki 的整個(gè)編輯歷史！每個(gè)wiki頁(yè)面的每次編輯都被它們記錄下來(lái)，這到底要干什么？難道是想了解Wiki上的文本隨著時(shí)間如何變化？

這種行為讓自家系統(tǒng)和數(shù)據(jù)庫(kù)負(fù)載極重，用戶訪問(wèn)緩慢。

丹尼斯趕緊想招應(yīng)對(duì)，他嘗試去限制爬蟲(chóng)的訪問(wèn)速率，但是巨頭的網(wǎng)絡(luò)爬蟲(chóng)會(huì)迅速地改變IP。

然后又根據(jù)User Agent 去阻止爬蟲(chóng)訪問(wèn)，但它們會(huì)使用一個(gè)非網(wǎng)絡(luò)爬蟲(chóng)的User Agent。

這實(shí)在是沒(méi)辦法了，丹尼斯說(shuō)，這簡(jiǎn)直是對(duì)整個(gè)互聯(lián)網(wǎng)的DDoS！

這個(gè)文章被發(fā)到了HackerNews，立刻成為熱帖，引發(fā)了強(qiáng)烈的共鳴。

網(wǎng)友markerz說(shuō)：

我的網(wǎng)站被Facebook的 AI 機(jī)器人徹底摧毀了，它的請(qǐng)求越來(lái)越多，直到我的服務(wù)器崩潰....我也修改了robots.txt，但是AI機(jī)器人無(wú)視了它...

網(wǎng)友buro9說(shuō)：

我的服務(wù)器被Cluade訪問(wèn)了480萬(wàn)次，被Amazon訪問(wèn)了39萬(wàn)次，ChatGPT訪問(wèn)了14.8萬(wàn)次

網(wǎng)友Saris說(shuō)：

我有一個(gè)內(nèi)容不經(jīng)常變化的網(wǎng)站（公司網(wǎng)站），總共有幾百頁(yè)面。但同一個(gè)人工智能機(jī)器人每天會(huì)多次掃描整個(gè)網(wǎng)站，真不明白它們?yōu)槭裁匆@么干。

這些爬蟲(chóng)帶來(lái)的危害顯而易見(jiàn)，首先讓這些網(wǎng)站不堪重負(fù)，速度變慢，其次會(huì)增加網(wǎng)站的運(yùn)營(yíng)費(fèi)用。

更有趣的是，這些網(wǎng)站中有大量是部署在亞馬遜、Google，微軟的云上的，現(xiàn)在巨頭們正在向自己的客戶發(fā)起“DDoS攻擊”并收取流量費(fèi)用。

網(wǎng)友joshdavham說(shuō)：

幾個(gè)月前，我在GCP上部署了一個(gè)小型應(yīng)用，這些愚蠢的AI機(jī)器人讓我花掉了一大筆錢。

網(wǎng)友oriettaxx說(shuō)：

上周我們不得不把AWS-RDS數(shù)據(jù)庫(kù)和CPU配置翻番，最大的流量就是AmazonBot，這個(gè)AmazonBot到底在干什么？！

看到這些消息，我心里是有些疑問(wèn)的，這些都是IT巨頭，如果它們?yōu)榱双@得足夠的數(shù)據(jù)來(lái)訓(xùn)練人工智能，忽視r(shí)obot.txt這些業(yè)界的規(guī)范，那可真是集體放棄契約精神，不顧道德底線了！

我甚至想，是不是有人打著這些大廠的User Agent的旗號(hào)在爬數(shù)據(jù)呢？我看不到這些爬蟲(chóng)的IP，很難做成準(zhǔn)確的判斷。

人工智能巨頭們創(chuàng)造了數(shù)萬(wàn)億美元的市值，如果真的是不擇手段地把別人的數(shù)據(jù)拿走，真的是太過(guò)分了。

“利潤(rùn)私有化，損失社會(huì)化”，這就是活生生的案例。

前一段有個(gè)說(shuō)法叫做“互聯(lián)網(wǎng)已死”，認(rèn)為網(wǎng)上大部分內(nèi)容都是機(jī)器人產(chǎn)生的，如果這個(gè)是真的，那就慘了，機(jī)器人創(chuàng)建的內(nèi)容，被機(jī)器人抓取，然后用于訓(xùn)練大模型，AI機(jī)器人再到網(wǎng)上發(fā)帖...... 這樣循環(huán)下去，互聯(lián)網(wǎng)就真的死了。

難道就沒(méi)有辦法來(lái)對(duì)于這些沒(méi)有底線的AI爬蟲(chóng)了嗎？

有矛就有盾，有種辦法叫做Tarpit （焦油坑），本意是讓動(dòng)物會(huì)陷入其中并慢慢沉入水面下。這是一種反向延遲攻擊，AI爬蟲(chóng)連接后，你的網(wǎng)站要非常緩慢地輸出內(nèi)容（速度也不能太慢，防止AI爬蟲(chóng)超時(shí)而斷開(kāi)連接）。當(dāng)然，輸出應(yīng)該是垃圾。

大模型很厲害，自然也擁有識(shí)別垃圾的能力，有人提出了一種更加高級(jí)的辦法，把所有AI爬蟲(chóng)的請(qǐng)求都路由到另外一個(gè)靜態(tài)的、可以緩存的網(wǎng)頁(yè)去。

這個(gè)網(wǎng)頁(yè)可以像論壇的頁(yè)面，內(nèi)容由較老版本的大模型來(lái)生成，讓其中包含一些微妙的事實(shí)錯(cuò)誤，相當(dāng)于對(duì)大模型“投毒”了。

還有人出了更狠的點(diǎn)子：當(dāng)監(jiān)測(cè)到是AI 爬蟲(chóng)請(qǐng)求以后，提供的內(nèi)容需要JavaScript才能執(zhí)行，然后在JavaScript中進(jìn)行挖礦......

參考資料：

https://pod.geraspora.de/posts/17342163

https://news.ycombinator.com/item?id=42549624

全文完，覺(jué)得不錯(cuò)的話點(diǎn)個(gè)贊或者在看吧！

近期爆文：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.