99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<sub id="eyej3"><p id="eyej3"><li id="eyej3"></li></p></sub>

<cite id="eyej3"></cite>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

被 AI 爬蟲擠爆服務器后，維基百科點了投降。

2025-04-29 00:11:11　來源: 差評XPIN

浙江舉報

0

分享至

說到維基百科，大家都不陌生。

光在差評的資料來源里，你就能經常看到它。

世超每次寫那些帶點歷史的、科普性質的文章時，就會查維基百科的解釋，完了再順著底部的參考資料挖一挖，能延伸出更多信息點。

可以說，維基百科是普通人弄懂一個概念，最便捷也最權威的方式之一。

維基百科的運營機構，是一個叫維基媒體的非盈利組織。組織旗下除了有維基百科，還有維基共享資源，維基詞典，維基教科書等項目。

這些項目都是免費給大家用的，因為維基媒體的核心價值觀就是讓知識能自由獲取和共享。

但最近，維基媒體真的被 AI 公司們鬧麻了。

這些公司為了訓練大模型，派了無數個 AI 爬蟲源源不斷爬取維基媒體上面的數據。

但說起來你可能不信：維基媒體居然沒告這些 AI 公司，而是選擇了——

主動上交。

“各位大哥，我把資料都整理好了，你們別爬了行不。”

前段時間，維基媒體把英語、法語的維基百科內容托管在社區平臺 Kaggle，告訴那些 AI 公司，要資源自取。

光給資源還不行，維基還要服務好這些大哥，專門把資料針對 AI 模型的口味優化了一遍。

因為機器和人類不一樣，我們看起來清晰直觀的頁面，他們還需要多動點腦子，來判斷每一部分是啥。

所以維基就把頁面做成了 JSON 格式的結構化內容，那些標題、摘要、解釋都按照統一格式分好。

這樣 AI 在查看時更容易讀懂每一段的內容和數據，從而降低了 AI 公司的成本。

這一波啊，這一波屬于是為了保護老巢不被沖垮，維基給狼群做了一盤美味的肉，扔在了別的地方。

世超覺得，維基這么做真挺無奈的。

早在 4 月 1 號時，他們已經發過博客吐槽了：從 2024 年以來，平臺用來下載多媒體內容的流量增加了 50%。

本以為是大家更愛學習了，結果一查發現全 TM 是 AI 公司的爬蟲。爬蟲們源源不斷地把資源爬回去，然后拿去訓練大模型。

爬蟲對維基的影響，還真挺大的。

因為維基媒體在全球有多個區域數據中心（歐洲、亞洲、南美等）和一個核心數據中心（美國弗吉尼亞州阿什本）。

核心數據中心存著所有的資料，而區域數據中心會臨時緩存一些熱門詞條。

這么做好處是啥呢？

比如最近很多亞洲人在查“ Speed ”這個詞，那“ Speed ”就會被緩存到亞洲的區域數據中心。

這樣后來的亞洲網友查看“ Speed ”時，這些數據就會走同城快遞，從亞洲數據中心出發，不用再從美國的數據中心走國際物流了。

這高頻詞條走廉價通道，低頻詞條走高價通道的辦法，不光提高了各個區域用戶的加載速度，也降低了維基媒體的服務器壓力。

但問題是： AI 管你這的那的？只要是個詞條，它都要訪問，而且批量性訪問。

這就導致不斷有流量走高價通道。

前段時間維基媒體就發現，那些走美國數據中心的高成本流量，居然有 65% 都是 AI 爬蟲糟蹋的。

要知道維基是免費的，但它的服務器不是，每年都有 300 萬美元托管成本呢。

不過吐槽可能并沒啥用，所以幾周后維基媒體選擇把資源整理出來，托管在其他平臺，讓 AI 公司自取。

其實不光是維基百科，從內容平臺到開源項目，從個人播客到媒體網站大家都遇到過類似問題。

去年夏天，iFixit 老板就在推特上吐槽 Claude 的爬蟲在一天訪問了自家網站 100 萬次。。。

看到這，你可能會說，不是一個有機器人協議 robot.txt 么，不想讓 AI 爬蟲訪問自己的網站，可以把它寫進協議里。

啊對，在 ifixit 把 Claude 爬蟲添加到 robots.txt 后，爬行確實暫停了下（變成了30分鐘一次）

在曾經的互聯網時代，robots 協議的確是個一勞永逸的技術，也有公司因為不遵守吃到了官司。

但擱現在，這個君子協議只能算紙老虎。

現在的大模型公司，能爬盡爬。

畢竟別家都在爬，你不爬，那你的語料庫就不如別人強大，大模型起跑線就會低人一等。

那咋辦——

給爬蟲換一個名字唄（user-agent）。你只說不讓魯迅爬，又沒讓說不讓周樹人爬。

有沒有大模型這么無恥？可太多了。

之前就有 reddit 網友明明在協議中禁止 OpenAI 的爬蟲，結果對面改了下名字，繼續爬。

再比如 perplexity 也被科技媒體 WIRED 抓包過，根本無視 robots 協議。

這些年呢，大家也在嘗試各種新的辦法。

有人研究出在 robots 協議中放一個壞死鏈接，但凡點進鏈接的一定是爬蟲，畢竟正常用戶是不會點擊這個協議。

還有人選擇借助 Web 應用程序防火墻 ( WAF )，基于 IP 地址、請求模式、行為分析綜合識別惡意爬蟲。

也有人決定給網站弄一套驗證碼。

但基本上這些辦法，往往道高一尺，魔高一丈。你抵抗越狠，AI 公司也會采取更殘暴的爬取手段。

所以賽博菩薩 cloudflare 前段時間出了一套技術是監測到有惡意爬蟲，就索性讓爬蟲進來。

當然放它進來，不是給它好吃的，而是做了一道“錯飯”——

提供一串和被抓取網站無關的網頁，讓 AI 在里面慢慢看。

cloudflare 的操作還算是收斂著了。

今年 1 月，有網友寫了一款更兇狠的工具，叫 Nepenthes 豬籠草。

和豬籠草殺死昆蟲一樣，“ 豬籠草 ”將 AI 爬蟲困在沒有出口鏈接的 “ 無限迷宮 ” 靜態文件中，讓它們抓不了真實內容。

不光如此，“ 豬籠草 ”還不斷向爬蟲投喂 “ 馬爾可夫亂語 ”，來污染 AI 的訓練數據。據說這個技術目前僅有 OpenAI 的爬蟲能逃脫。

好好好，原來 AI 攻防戰，在大模型訓練源頭就已經打響了。

當然了，平臺們也可以和 AI 公司達成協議。

比如 Reddit 和推特都向 AI 公司推出了收費套餐，每月使用多少 API、訪問多少推文，我就收你多少錢。

也有沒談成還打起官司的。比如《紐約時報》商量無果后，就起訴了 OpenAI 抓取自家文章。

看到這你可能會好奇：為什么維基百科不告這些 AI 爬蟲呢？

世超猜測，這可能和維基百科本身有關。

維基百科的許可協議非常開放。

它大部分內容是允許任何人（包括 AI 公司）在遵守署名和相同協議共享的條件下，自由地使用、復制、修改和分發。

所以從法律角度來看，AI 公司抓取、使用維基百科的數據進行模型訓練，大概率還是合法的。

而且就算把 AI 公司告上法庭，但現在業內也沒有對 AI 侵權這塊有個明確的法律界限。這種風險大、成本高、消耗時間久的選擇，對維基媒體來說，并不切合實際。

最主要的是，維基媒體的使命就是——讓地球上的每個人都能自由獲取所有知識。

雖然 AI 爬蟲帶來的服務器成本是一個問題，但通過法律手段或商業協議，來限制別人獲取資源，或許和他們的使命相違背吧。

照這么來看，維基媒體選擇把數據整理好，給 AI 公司拿去訓練，也許是最合適，但也最無奈的辦法吧。

撰文：燒烤大師刺猬

編輯：莽山烙鐵頭

美編：萱萱

圖片、資料來源：

https://x.com/kwiens/status/1816128302542905620

Openai not respecting robots.txt and being sneaky about user agents : r/selfhosted

Perplexity Is a Bullshit Machine

The New York Times Sues OpenAI and Microsoft for Copyright Infringement | PCMag

AI haters build tarpits to trap and trick AI scrapers that ignore robots.txt

Trapping misbehaving bots in an AI Labyrinth

Wikipedia is giving AI developers its data to fend off bot scrapers

How crawlers impact the operations of the Wikimedia projects

The journey to open our first data center in South America

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

納米AI放大招！MCP萬能工具箱，人人都能用上超級智能體

機器之心Pro 2025-04-27 20:02:18
7 跟貼 7
ChatGPT開始“賣貨”了！

智東西 2025-04-29 18:25:11
0 跟貼 0

AI包辦79%代碼，程序員飯碗不保！前端開發要涼，人類只配改Bug？

新智元 2025-04-29 14:58:58
14 跟貼 14

細思極恐，AI操控輿論達人類6倍！臥底4月無人識破，Reddit集體淪陷

新智元 2025-04-29 17:03:01
0 跟貼 0
AIO或將爆發？AI的盡頭也是廣告，大模型或秒變AI帶貨助理

雷科技 2025-04-29 12:51:14
0 跟貼 0

無問芯穹開源大模型推理加速神器，加碼構建新一代端、云推理系統

機器之心Pro 2025-04-29 19:08:54
0 跟貼 0

中興通訊發布AI家庭產品“四大件”，開啟AI領域全新賽道

財聯社 2025-04-29 20:12:05
0 跟貼 0
你有想法嗎？B社正在尋求滾4RE玩家反饋建議！

游民星空 2025-04-29 11:09:33
1 跟貼 1

三招解決Deepseek服務器繁忙

通信世界 2025-02-21 09:45:24
0 跟貼 0
福建人，為啥天生會做生意？

混知財經 2025-04-29 12:22:16
1 跟貼 1
傳騰訊阿里從字節搶購算力資源字節否認

財聯社 2025-04-28 16:08:07
79 跟貼 79
俄羅斯絕密文件曝光：若與北約開戰，先打中國周邊兩國“鄰居”

軍武時間線 2025-04-28 10:08:33
0 跟貼 0
不只男人女人也愛上網站看

憨憨愛影視 2025-04-28 08:27:48
4 跟貼 4
記憶家鄉路名稱我來著——全民皆參與

半島官網 2025-04-29 11:29:17
0 跟貼 0
“水靈靈”地去“班味兒”，2024年度銳詞有多戳人？

新周刊 2024-12-18 16:10:45
0 跟貼 0
內馬特把房產文件交給卡拉姆決定把娘家的房子賣了

小魚二動漫 2025-04-25 09:38:39
0 跟貼 0
巴方:你斷我們水我就讓你斷氣我們130枚核武不是擺設

新京報 2025-04-28 23:20:04
3900 跟貼 3900
俄在“海參崴”閱兵彩排各種先進武器裝備列隊前行

征垣之路 2025-04-28 21:38:33
8096 跟貼 8096
1976年王洪文被捕后，其家中藏有“絕密文件”，華主席震驚不已

男人吻女人是一種口福 2025-04-29 03:03:53
0 跟貼 0
跟咱們有多大關系？西班牙宣布進入國家緊急狀態，有網友開始囤錢

大風文字 2025-04-29 10:28:17
3203 跟貼 3203
外交部發布重磅視頻《不跪！》

北京日報 2025-04-29 08:49:41
5355 跟貼 5355
山西省海歸商會發布關于董明珠涉海歸言論嚴正聲明：留學人員是黨和人民的寶貴財富，封閉思維危及企業競爭力

和訊網 2025-04-29 12:35:00
5374 跟貼 5374
隨著布雷切爾+奧沙利文晉級，世錦賽8強全部落位！對陣+時間出爐

球場沒跑道 2025-04-29 03:00:30
2064 跟貼 2064
這樣的約會匹配網站，針對對象已經很清楚了

青煙剪影 2025-04-26 09:13:32
1 跟貼 1
黨中央決定，派出8個中央指導組

長安街知事 2025-04-29 19:08:13
1 跟貼 1
ChatGPT的盡頭也是「帶貨」：3、2、1，上鏈接

機器之心Pro 2025-04-29 14:22:22
2 跟貼 2
老公偷看美女網站正常嗎？

冬咚影視集 2025-04-27 10:45:51
1 跟貼 1
Devin開發團隊開源DeepWiki，助你快速讀懂所有GitHub代碼庫

機器之心Pro 2025-04-28 11:40:50
1 跟貼 1
河南網紅阿陽在巴鐵回憶小時候農村生活，把女兒接在身邊更好

九方魚論 2025-04-28 22:29:02
14 跟貼 14
馬健評遼籃表現：不是一個職業隊的表現，他們賽前訓練了嗎？

懂球帝 2025-04-28 22:25:07
778 跟貼 778
貪官在會場被帶走表情"一臉懵" 走路顫抖魂都沒了

中國品牌 2025-04-29 16:39:46
2372 跟貼 2372
一份永不開啟的“絕密文件”，揭露斯大林隱藏了半個世紀的秘密

星夜漣漪 2025-04-28 02:02:24
0 跟貼 0
美財長：正與15-18個貿易伙伴談判首份協議本周或下周達成

財聯社 2025-04-29 08:44:15
671 跟貼 671
不慣著！楊鳴連續兩場被外籍裁判吹T 孫銘徽與裁判激烈交流吃T

醉臥浮生 2025-04-28 20:46:34
3020 跟貼 3020
嵐圖FREE+：聽勸只為贏得用戶信任的雙向奔赴

汽車相對論 2025-04-27 18:13:38
3 跟貼 3
為倆個B子，你們是啥活都接啊，這下半年錢白賺了

南北分界線 2025-04-28 23:53:47
2462 跟貼 2462
軍齡兩頭算，有文件規定沒有？具體是怎么規定的？

軍途 2025-04-27 20:58:32
0 跟貼 0
遼籃26分潰敗夜太詭異了？38歲韓德君在拼命：26歲張鎮麟卻在散步

籃球快餐車 2025-04-29 00:42:48
31 跟貼 31
對話開源中國馬越：DeepSeek不是國運級的創新，年輕人才是

36氪 2025-03-13 18:14:13
6 跟貼 6
央視都看好的《絕密較量》，觀眾卻強烈要求下架，為什么罵聲一片

史紀文譚 2025-04-29 19:15:53
1 跟貼 1

董小姐論文被消失！裝都不裝了，刪掉論文看你們還怎么揪著不放？

董小姐論文被消失！裝都不裝了，刪掉論文看你們還怎么揪著不放？

走讀新生

2025-04-29 15:56:02

1惡犯+1技犯都沒被罰下？NBA專家：追夢應被罰下，我知道規則怎么寫的

1惡犯+1技犯都沒被罰下？NBA專家：追夢應被罰下，我知道規則怎么寫的

懂球帝

2025-04-29 11:40:13

養老金調整好消息，上海回應來了！部分60歲、65歲可以多漲錢？

養老金調整好消息，上海回應來了！部分60歲、65歲可以多漲錢？

阿纂看事

2025-04-28 13:05:01

馬斯克，再出驚人預測

放毒

2025-04-29 17:01:47

爆料廣東隊大動作，打包三大番薯想換鄒陽，超級中鋒北京特訓

爆料廣東隊大動作，打包三大番薯想換鄒陽，超級中鋒北京特訓

宗介說體育

2025-04-29 16:58:09

曝拒肖飛打招呼醫生是盤尼西林成員，才31歲，照片曝光，網友熱議

曝拒肖飛打招呼醫生是盤尼西林成員，才31歲，照片曝光，網友熱議

動物奇奇怪怪

2025-04-29 06:39:27

第43屆香港金像獎，這次算是“涼透”了，吳鎮宇的話說對了

第43屆香港金像獎，這次算是“涼透”了，吳鎮宇的話說對了

八卦南風

2025-04-29 15:49:18

舉報后再發：楊白勞借黃世仁錢的利息是多少？這又刺痛了多少人？

舉報后再發：楊白勞借黃世仁錢的利息是多少？這又刺痛了多少人？

翻開歷史和現實

2025-04-28 14:48:17

趙麗穎隱婚風波再發酵！和趙德胤更多親密互動被扒，粉絲祝福兩人

趙麗穎隱婚風波再發酵！和趙德胤更多親密互動被扒，粉絲祝福兩人

古希臘掌管月桂的神

2025-04-29 15:17:07

突發！重組終止

中國基金報

2025-04-29 16:25:57

戴高樂機場驚現行李箱現金！三人攜近300萬歐元被捕

戴高樂機場驚現行李箱現金！三人攜近300萬歐元被捕

新歐洲

2025-04-28 20:03:16

傳京東外賣上線前，劉強東曾約王興程維姚勁波喝酒：零售任何人都可以做，做外賣也一樣，兄弟們守好自己底線

傳京東外賣上線前，劉強東曾約王興程維姚勁波喝酒：零售任何人都可以做，做外賣也一樣，兄弟們守好自己底線

和訊網

2025-04-28 15:34:49

日本或成全球首個部署電磁炮的國家，日本海空軍實力非常強悍

日本或成全球首個部署電磁炮的國家，日本海空軍實力非常強悍

邵旭峰域

2025-04-29 11:10:00

北京中日醫院大瓜再升級！當事人學歷背景被扒，董明珠果然說對了

北京中日醫院大瓜再升級！當事人學歷背景被扒，董明珠果然說對了

明月聊史

2025-04-29 17:45:42

體育主持人楊毅爆猛料：抵制飯圈來自劉國梁求助，辭職或因此而起

體育主持人楊毅爆猛料：抵制飯圈來自劉國梁求助，辭職或因此而起

蜜桔娛樂

2025-04-29 09:59:17

金球獎哪國最多？巴西僅5座，四國并列第二，梅西一人撐起阿根廷

金球獎哪國最多？巴西僅5座，四國并列第二，梅西一人撐起阿根廷

籃球圈里的那些事

2025-04-29 17:40:00

朱立倫喊罷免賴清德，連勝文：國民黨已沒有退路，必須有所動作

朱立倫喊罷免賴清德，連勝文：國民黨已沒有退路，必須有所動作

海峽導報社

2025-04-29 15:54:21

徐璐知三當三！？

八卦瘋叔

2025-04-28 17:03:45

CBA最新消息！上海續約洛夫頓，克里斯被放棄，山東男籃補強

CBA最新消息！上海續約洛夫頓，克里斯被放棄，山東男籃補強

體壇瞎白話

2025-04-29 16:36:25

史無前例的漲價，要開始了？

混知房產

2025-04-28 07:35:58

用知識和觀點Debug the world！

8837文章數 488370關注度

往期回顧全部

科技要聞

Qwen3發布阿里也要靠多模態/性價比打天下

頭條要聞

遼寧遼陽致22死火災事故飯店經營者已被控制

頭條要聞

遼寧遼陽致22死火災事故飯店經營者已被控制

體育要聞

勇士火箭雷霆太陽，你們是怎么失去他的？

娛樂要聞

帶著兒子嫁給張譯如今才知到底有多值

財經要聞

沃爾瑪恢復中國供應商出貨客戶承擔關稅

汽車要聞

為全球造最好小車 firefly的故事才剛剛開始

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

房產

數碼

手機

公開課

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

房產要聞

1.6w+起！國興核心驚現改善神盤,海口房價徹底殺瘋！

數碼要聞

華為Watch5手表曝光延續圓形表盤設計起售價440歐元

手機要聞

iPhone17系列：量產難題、進程，均被確認了！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
全球十大恐怖禁區有哪些？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：洛扎县| 平安县| 分宜县| 额济纳旗| 绥江县| 固始县| 肥城市| 玉屏| 丹东市| 商河县| 松滋市| 雅安市| 镇巴县| 河北区| 新沂市| 镇赉县| 甘南县| 台安县| 黑龙江省| 鲁山县| 临颍县| 舞钢市| 黄山市| 绥化市| 博野县| 台南市| 沾益县| 赤壁市| 杨浦区| 车致| 新野县| 太原市| 巧家县| 海盐县| 内丘县| 九寨沟县| 平江县| 阜新| 兰州市| 芜湖市| 邵阳市|