99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI爬蟲肆虐,OpenAI等大廠不講武德!開發(fā)者打造「神級(jí)武器」宣戰(zhàn)

0
分享至


新智元報(bào)道

編輯:定慧

【新智元導(dǎo)讀】AI爬蟲是互聯(lián)網(wǎng)最頑固的「蟑螂」,不講規(guī)則、壓垮網(wǎng)站,令開發(fā)者深惡痛絕。面對(duì)這種AI時(shí)代的「DDoS攻擊」,極客們用智慧反擊:或設(shè)「神之審判」Anubis,或制造數(shù)據(jù)陷阱,以幽默和代碼讓機(jī)器人自食其果。這場攻防戰(zhàn),正演變成一場精彩絕倫的網(wǎng)絡(luò)博弈。

AI網(wǎng)絡(luò)爬蟲是互聯(lián)網(wǎng)上的「 蟑螂」,幾乎所有軟件開發(fā)者都會(huì)這樣認(rèn)為的。

「爬蟲 」是一種網(wǎng)絡(luò)自動(dòng)程序,用來瀏覽互聯(lián)網(wǎng)、獲取網(wǎng)頁內(nèi)容。

而在AI時(shí)代,爬蟲的威脅到了讓開發(fā)者不得不封鎖掉某個(gè)地區(qū)所有人的訪問。


Triplegangers是一家僅僅由七名員工運(yùn)營的公司,他們花費(fèi)十多年時(shí)間建立了自稱是網(wǎng)絡(luò)上最大的「人類數(shù)字替身」的數(shù)據(jù)庫,即從實(shí)際人體掃描得到的3D圖像文件。


2025年2月10日,公司CEO Oleksandr Tomchuk突然發(fā)現(xiàn)他們公司的電商網(wǎng)站「崩了」。

「OpenAI使用了600個(gè)IP來抓取數(shù)據(jù),日志還在分析中,可能遠(yuǎn)不止這些」,Tomchuk最終發(fā)現(xiàn),導(dǎo)致他們網(wǎng)站崩潰的元兇竟然是OpenAI的爬蟲機(jī)器人。

「他們的爬蟲正在壓垮我們的網(wǎng)站,這就是一次DDoS攻擊!」

OpenAI沒有回應(yīng)此次事件,該事件過去僅僅不到兩個(gè)月,但AI爬蟲機(jī)器人仍然活躍在網(wǎng)絡(luò)上。

AI爬蟲不遵循「古老傳統(tǒng)」,阻止他們是徒勞的

其實(shí)爬蟲最早并不是AI時(shí)代為了獲取訓(xùn)練語料而誕生的。

早在搜索引擎時(shí)代,就已經(jīng)有「搜索引擎機(jī)器人」,那個(gè)「古老年代」的機(jī)器人還約定俗成的遵循各個(gè)網(wǎng)站上會(huì)存在的一份文件——robots.txt。

這個(gè)文件告訴了機(jī)器人不要爬取哪些內(nèi)容,哪些內(nèi)容可以爬取。

但這份傳統(tǒng)隨著互聯(lián)網(wǎng)的發(fā)展似乎已經(jīng)被遺忘,爬蟲和發(fā)爬蟲也演變?yōu)橐粓龉シ缿?zhàn)役。

而到了如今的「大模型時(shí)代」,互聯(lián)網(wǎng)的信息已經(jīng)被LLMs吞噬一空。

阻止AI爬蟲機(jī)器人是徒勞的,因?yàn)樗鼈儠?huì)撒謊、更改用戶代理、使用住宅IP地址作為代理來騙過網(wǎng)絡(luò)「防守」。

「他們會(huì)不斷地抓取你的網(wǎng)站,直到它崩潰,然后還會(huì)繼續(xù)抓取。他們會(huì)點(diǎn)擊每一個(gè)頁面上的每一個(gè)鏈接上,一遍又一遍地查看相同的頁面」,開發(fā)者在帖子中寫道。

AI機(jī)器人除了「免費(fèi)」爬取信息外,還會(huì)額外增加所爬網(wǎng)站企業(yè)的運(yùn)營費(fèi)用——在這個(gè)云服務(wù)的時(shí)代,幾乎所有被爬取的企業(yè)都在云上,大量的爬蟲流量不僅無法帶來收益,還會(huì)增加他們的云服務(wù)器賬單。

更加無法預(yù)料的一點(diǎn)是,對(duì)于那些被「白嫖」的網(wǎng)站來說,甚至確切的知道被白嫖了哪些信息。

一些開發(fā)者決定開始以巧妙且幽默的方式進(jìn)行反擊。

程序員打造爬蟲的「神之墓地」

FOSS開發(fā)者Xe Iaso在博客中描述了AmazonBot如何不斷攻擊一個(gè)Git服務(wù)器網(wǎng)站,導(dǎo)致DDoS停機(jī)。


所以Iaso決定用智慧反擊,他構(gòu)建了一個(gè)名為Anubis的工具。

Anubis是一個(gè)工作量證明檢查的反向代理,請(qǐng)求必須通過該檢查才能訪問Git服務(wù)器。

它阻止機(jī)器人,但允許人類操作的瀏覽器通過。


Iaso關(guān)于Anubis工作原理的簡單介紹。


本質(zhì)上,Anubis確保的是「真實(shí)人類使用的瀏覽器」在訪問目標(biāo)網(wǎng)站,而不是AI爬蟲——除非這個(gè)爬蟲偽裝的足夠「先進(jìn)」,就像通過圖靈測試一樣。


有趣的部分是:Anubis是埃及神話中引導(dǎo)死者接受審判的神的名字。


「Anubis稱量了你的靈魂(心臟),如果它比一根羽毛重,你的心臟就會(huì)被吃掉,然后你就徹底死了」。

這個(gè)項(xiàng)目的名字帶有諷刺意味,在自由開源軟件社區(qū)中像風(fēng)一樣傳播開來。

Iaso在3月19日將其分享到GitHub上,僅幾天時(shí)間就獲得了2000個(gè)星標(biāo)、20位貢獻(xiàn)者和39個(gè)分支。


用「復(fù)仇」的方式防御AI爬蟲

Anubis的迅速流行表明Iaso的痛苦并非個(gè)例。 事實(shí)上,還有很多故事:

  • SourceHut的創(chuàng)始人兼CEO Drew DeVault描述說,他每周要花費(fèi)「20% 到 100% 的時(shí)間來大規(guī)模緩解過于激進(jìn)的 LLM 爬蟲」,并且「每周經(jīng)歷數(shù)十次短暫的服務(wù)中斷」。

  • Jonathan Corbet,一位著名的FOSS開發(fā)者,他運(yùn)營著Linux行業(yè)新聞網(wǎng)站 LWN,警告稱他的網(wǎng)站正受到「來自 AI 抓取機(jī)器人的 DDoS 級(jí)別的流量」影響而變慢。

  • Kevin Fenzi,龐大的Linux Fedora項(xiàng)目的系統(tǒng)管理員,表示AI抓取機(jī)器人變得如此激進(jìn),他不得不封鎖整個(gè)巴西的訪問。

除了像Anubis一樣「衡量」網(wǎng)絡(luò)請(qǐng)求者的靈魂外,其他開發(fā)者認(rèn)為復(fù)仇是最好的防御。

幾天前在Hacker News上,用戶xyzal建議用「大量關(guān)于喝漂白劑好處的文章」或「關(guān)于感染麻疹對(duì)床上表現(xiàn)的積極影響的文章」來加載robots.txt禁止的頁面。

這樣AI爬蟲獲取的信息都是這種大量且無用的「替代品」。


「我們認(rèn)為需要讓機(jī)器人訪問我們的陷阱時(shí)獲得負(fù)的效用值,而不僅僅是零價(jià)值」,xyzal 解釋說。

一月份,一位名為Aaron的匿名創(chuàng)作者發(fā)布了一個(gè)名為Nepenthes的工具,其目的正是如此。

它將爬蟲困在一個(gè)無盡的虛假內(nèi)容迷宮中,無法像爬蟲「主人」返回任何信息。

而作為網(wǎng)友心目中的「賽博菩薩」的Cloudflare,也許是提供多種工具來抵御AI爬蟲的最大商業(yè)玩家,上周發(fā)布了一個(gè)名為AI Labyrinth的類似工具。


它的目的是「減慢、迷惑并浪費(fèi)不遵守禁止爬取指令的AI爬蟲和其他機(jī)器人的資源」,Cloudflare 在其博客文章中描述道。

「當(dāng)AI爬蟲跟隨這些鏈接時(shí),它們會(huì)浪費(fèi)寶貴的計(jì)算資源處理無關(guān)內(nèi)容,而不是提取合法網(wǎng)站數(shù)據(jù)。這大大降低了它們收集足夠有用信息以有效訓(xùn)練模型的能力」。

相比起反擊,另一種觀點(diǎn)是「Nepenthes有一種令人滿意的正義感,因?yàn)樗蚺老x提供無意義的內(nèi)容并污染它們的數(shù)據(jù)源,但最終Anubis是對(duì)網(wǎng)站有效的解決方案」。

拒絕或者反擊也許都不是最佳的途徑。

DeVault也公開發(fā)出了一則誠懇的請(qǐng)求,希望有一個(gè)更直接的解決辦法:「請(qǐng)停止將LLMs或AI圖像生成器任何這類垃圾合法化。懇求停止使用它們,停止談?wù)撍鼈儯V怪圃煨碌模瓦@么停下」。

但是,想讓LLM廠商主動(dòng)停止爬蟲這種情況的可能性幾乎為零。

畢竟AI的「智能」都來自于不斷「吞噬」互聯(lián)網(wǎng)上的各種數(shù)據(jù)和信息。

不論是給禁止AI爬蟲訪問網(wǎng)站、給AI「投喂垃圾」還是將AI爬蟲拉入「無線虛空」。

開發(fā)者們,尤其是在開源軟件領(lǐng)域,正在用智慧和「極客幽默」進(jìn)行反擊。

如果你是網(wǎng)站管理者和開發(fā)者,你會(huì)如何「出招」?

參考資料:

https://techcrunch.com/2025/03/27/open-source-devs-are-fighting-ai-crawlers-with-cleverness-and-vengeance/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
人社部定調(diào)!2025退休“雙延長”,1965-1978年的開心了

人社部定調(diào)!2025退休“雙延長”,1965-1978年的開心了

晨曦徐徐
2025-03-31 10:27:48
特朗普關(guān)稅遭“大金主”抨擊:完全是“胡鬧”!

特朗普關(guān)稅遭“大金主”抨擊:完全是“胡鬧”!

財(cái)聯(lián)社
2025-04-08 08:27:07
大S子女被徐家忽視,粉絲呼吁S媽愛護(hù)好孩子,S媽回應(yīng)顯敷衍

大S子女被徐家忽視,粉絲呼吁S媽愛護(hù)好孩子,S媽回應(yīng)顯敷衍

萌神木木
2025-04-08 17:05:55
打爆空頭!新華社:平準(zhǔn)基金來了,抄底這些股,龍頭股給利好

打爆空頭!新華社:平準(zhǔn)基金來了,抄底這些股,龍頭股給利好

鵬哥投研
2025-04-08 12:41:05
楊振寧長壽秘訣公開!無關(guān)運(yùn)動(dòng)飲水,這5大關(guān)鍵,顛覆認(rèn)知

楊振寧長壽秘訣公開!無關(guān)運(yùn)動(dòng)飲水,這5大關(guān)鍵,顛覆認(rèn)知

森羅萬象視頻
2025-04-07 19:08:38
“推遲關(guān)稅90天”是假新聞,戲劇性混亂正在美國發(fā)生 | 京釀館

“推遲關(guān)稅90天”是假新聞,戲劇性混亂正在美國發(fā)生 | 京釀館

新京報(bào)評(píng)論
2025-04-08 14:06:33
小米3死事故后續(xù):省公安廳表態(tài),龍門架攝像頭或拍下關(guān)鍵細(xì)節(jié)

小米3死事故后續(xù):省公安廳表態(tài),龍門架攝像頭或拍下關(guān)鍵細(xì)節(jié)

書中自有顏如玉
2025-04-08 05:45:10
油價(jià)一夜突變!今天4月8日調(diào)整后,全國加油站92、95汽油最新售價(jià)

油價(jià)一夜突變!今天4月8日調(diào)整后,全國加油站92、95汽油最新售價(jià)

沙雕小琳琳
2025-04-08 12:46:33
初代網(wǎng)紅獸獸近照曝光,38歲嫁加拿大身材好顏值下滑,兒子很像媽

初代網(wǎng)紅獸獸近照曝光,38歲嫁加拿大身材好顏值下滑,兒子很像媽

老鵜愛說事
2025-04-05 22:42:24
訪華請(qǐng)求被中國晾一邊,特朗普坐不住了,火速任命亞太“一把手”

訪華請(qǐng)求被中國晾一邊,特朗普坐不住了,火速任命亞太“一把手”

孜致博覽
2025-04-07 17:54:53
省委巡視組進(jìn)駐后,廳長主動(dòng)向組織交代問題

省委巡視組進(jìn)駐后,廳長主動(dòng)向組織交代問題

魯中晨報(bào)
2025-04-08 14:31:06
英國軍情六處改口,川普不是俄羅斯特工,只是和普京觀點(diǎn)一致而已

英國軍情六處改口,川普不是俄羅斯特工,只是和普京觀點(diǎn)一致而已

碳基生物關(guān)懷組織
2025-04-07 17:54:42
就業(yè)率超98%!中產(chǎn)家庭開始送孩子去日本留學(xué)了

就業(yè)率超98%!中產(chǎn)家庭開始送孩子去日本留學(xué)了

看看新聞Knews
2025-04-08 11:53:08
日本卡脖子第278天,武漢一家小公司造出了比日本更耐用的光刻膠

日本卡脖子第278天,武漢一家小公司造出了比日本更耐用的光刻膠

現(xiàn)代春秋
2025-04-07 20:29:53
985碩士陳濤:38歲失業(yè)投千份簡歷無人要,無奈送外賣,如今怎樣

985碩士陳濤:38歲失業(yè)投千份簡歷無人要,無奈送外賣,如今怎樣

奇思妙想草葉君
2025-04-07 22:08:49
18歲溫州富二代遺體被找到,死亡原因曝光,母親發(fā)文自稱是罪人

18歲溫州富二代遺體被找到,死亡原因曝光,母親發(fā)文自稱是罪人

凡知
2025-04-08 12:54:54
掉粉近40萬!被央視打碼后本人道歉,相關(guān)理發(fā)店回應(yīng)

掉粉近40萬!被央視打碼后本人道歉,相關(guān)理發(fā)店回應(yīng)

大象新聞
2025-04-07 17:49:32
Stein:庫班承認(rèn)獨(dú)行俠35億賣低了 人們以為是保留運(yùn)營權(quán)的折扣價(jià)

Stein:庫班承認(rèn)獨(dú)行俠35億賣低了 人們以為是保留運(yùn)營權(quán)的折扣價(jià)

直播吧
2025-04-08 17:03:08
胡兵做膽囊切除手術(shù),人在泰國,疑似瞿穎照顧,53歲的他依舊未婚

胡兵做膽囊切除手術(shù),人在泰國,疑似瞿穎照顧,53歲的他依舊未婚

游古史
2025-04-07 22:46:22
大洗牌開始了

大洗牌開始了

后視鏡里de未來
2025-04-07 11:08:58
2025-04-08 18:48:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
12491文章數(shù) 66006關(guān)注度
往期回顧 全部

科技要聞

iPhone在美會(huì)賣2萬元上嗎?在中國會(huì)漲價(jià)嗎

頭條要聞

美媒談"貿(mào)易戰(zhàn)":"明代中國"已給特朗普政府敲響警鐘

頭條要聞

美媒談"貿(mào)易戰(zhàn)":"明代中國"已給特朗普政府敲響警鐘

體育要聞

極限一穿四,他把韓國主場打到靜音

娛樂要聞

尷尬!甲亢哥想聯(lián)動(dòng)大張偉,卻被迫錄節(jié)目

財(cái)經(jīng)要聞

"中國版平準(zhǔn)基金"橫空出世 央行表態(tài)

汽車要聞

一季度車企銷量:下沉與上行,覺醒與迷惘

態(tài)度原創(chuàng)

親子
數(shù)碼
時(shí)尚
旅游
家居

親子要聞

還在受傷不想去上學(xué),歪理一大堆,這娃娃嘴可太會(huì)說了

數(shù)碼要聞

酷比魔方掌玩 mini 3 Ultra 平板規(guī)格公布,國補(bǔ)后 1400 元

別再披頭散發(fā)了!今春流行“奶奶發(fā)飾”,好看巨顯臉小

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

現(xiàn)代風(fēng)格 年輕簡約

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 渑池县| 本溪| 崇阳县| 江源县| 广灵县| 沅陵县| 呼伦贝尔市| 东丰县| 花莲县| 平度市| 靖远县| 宁波市| 景德镇市| 米脂县| 饶平县| 察隅县| 佛山市| 集安市| 伊通| 布尔津县| 鄂州市| 南宁市| 崇明县| 龙南县| 兴仁县| 郓城县| 泗阳县| 兰溪市| 肃宁县| 盐边县| 公主岭市| 鄢陵县| 开封市| 许昌市| 治多县| 德庆县| 明星| 成安县| 得荣县| 辛集市| 黄石市|