今天給大家看個新東西,聊一聊我在怎么防AI洗稿。。。
對于我這種內容創作者來說,最怕的洗稿方式是什么?
不是全抄,全抄的話很好舉報,而是一幫AI抄襲縫合怪。
經常會有人,復制我文章里的某一段話,然后用AI重寫后,貼到他們的文章里去。
主要,這玩意兒還很難舉報,因為根本沒法管。
我曾經想過用一些手段,來防止洗稿,但是沒什么用。
直到之前,我往回翻的時候,看到了一篇帖子。
這是OpenAI的創始成員Karpathy之前發的推文。
這個帖子的大概意思就是,它在一個emoji藏了很多信息,而這些信息,是你看不見的。
然后直接把DeepSeek R1干懵逼了10分鐘。
你可能會非常好奇,往emoji里面藏信息,跟洗稿有啥關系。
最開始的時候我也沒想到有啥關系,直到我把嘗試了一下,在一篇文章中中用這種方式埋了Token,看到這篇文章在公眾號后臺的正文字數從2000字變成了將近3w字。
我悟了。
于是我幾天前寫了一篇,在這篇文章里,就埋下了這個菜單,昨天關于Manus的那篇也埋了。
你們可以去試一試,把這篇文章復制到word里。(有死機風險,謹慎)
但是如果你們看完全篇的話,會發現,文章滿打滿算也就2500字。
而這多出來的1w多字,就是我用Karpathy說的方法,往文章里埋的彩蛋。
你我都不會看見,但是字數統計會發現。
而現在一般的國產AI產品里,會有一個很有趣的設定。
就是token限制。
如果你把這篇文章,發給一些改寫工作流的智能體,你就會發現。
而發給一些AI Chat呢。
Gemini也自己截斷了。
GPT 4o也懵逼了。
這個時候,其實就用一種非常原始、非常粗暴、非常智障的方式,能限制洗稿,因為根本輸不進去。
直接變成Token炸彈。
當然,坦率的講,對于一些推理模型來說,防不住,這個我是真沒招。
而對于做RAG和知識庫來說,卻并沒有任何影響,可以正常問答。
所以也可以避免,誤傷友軍。
這里,我也給大家舉個通俗易通的例子,來講下這玩意原理是個啥,以及怎么做我文章里的這種Token炸彈。
我們全世界的人在系統上,能看到統一文字,主要得益于Unicode,你可以理解為這是一本全球大字典,把地球上所有國家、所有民族用到的文字、符號和表情,統統都收進來了。
然后每個字符,都給它安排了一個固定的、不會重復的編號。
比如:字母「A」的編號是U+0041,漢字「你」的編號是U+4F60,表情符號「」的編號是U+1F602。
對,你天天用的各種emoji其實也是 Unicode。
而在 Unicode中呢,有一個特殊的玩意,叫變體選擇符(Variation Selector, VS)。
它能在一個字符后面加一些特殊的信息,讓這個字符改變樣式或者外觀。
比如這個心心。
(? + U+FE0F)→ 彩色心形 ??
(? + U+FE0E)→ 黑白文本心形 ?
后面加的,就是變體選擇符。
你可以把文字當成一張紙,變體選擇符就像一張透明膠帶,上面寫了字,但是你用肉眼看不見。
于是,我們就可以,在某個看似普通的文字或表情后面,貼上很多這樣的透明膠帶。而且理論上能一直往后面貼,想貼多少就貼多少。
在視覺上,你還是只看到一個emoji或一小段文字,但對系統而言,后面其實跟著一大串可以被解析的隱藏字符。
一旦系統或者AI要讀取或處理這段文字,就會發現:
“我擦,怎么藏了這么多東西?”
一下子就能把它的token數撐爆。
結果就是,表面看起來沒增加文字,但系統的字數統計直接飆升。
而我在Claude3.7那邊文章中,把隱藏信息,埋在了Claude 3.7 Son??????????????????net這個單詞中的第一個“n??????????????????”里面。
你可以直接把這個“n??????????????????”,復制到OpenAI的那個測有多少token的網站里,來看看這個n藏了多少token。
網址在此:https://platform.openai.com/tokenizer
這就是一個,非常隱蔽的token炸彈。
我再給大家演示下怎么找到這些隱藏信息,也就是解碼的方法。
特別簡單。
打開這個小工具:
https://emoji-encoder.vercel.app/?mode=decode
把文章里我埋彩蛋的“n??????????????????”直接復制到第一個網站,點擊“Decode”按鈕,即可進行解碼。
你可以發現,其實我往這個單詞里面,藏了《雙城記》英文版的一整章。。。
說完了解碼,那如何編碼呢?也就是如何把隱藏信息灌進字母里。
還是在這個網站操作。
把按鈕切換到Encode,把想藏的信息輸入進上面的文本框,然后在下面任意選一個表情or字母即可。
之后你就可以復制最下面文本框里的表情or字符,用微信發給朋友或者存在word文檔等平臺了。
而且,因為Unicode的特性,實測下來,隱藏信息并不會因為跨平臺而被格式化掉。
你還是可以把編碼玩的字母,發給微信的朋友,就能給微信頁面干死機。或者會顯示輸入文字過長,無法發送。
我大概測了下,這個極限值是1.5萬個token左右,超過就在微信里面發不出去了。
爬蟲也一樣。
我用Trae寫了一段爬蟲,把那篇文章給爬下來了。
稍微一運行這段代碼,在下面的終端界面里,只要是我埋的token炸彈的位置,全部一片空白。
如果用windows系統導出txt文件,就會全部是亂碼。
如果是Mac打開這個txt文件的話,顯示的內容就像右圖,倒也基本正常。
但是其實這個token炸單,還是保留的。
真的非常非常好玩。
你甚至還能用這種暗號躲過信息審核員,把它放到網站上,傳輸信息。
甚至還能把它,當數字水印用。
你可以在發給不同人的文檔里,給每個字符都加一點不一樣的變體選擇符。當文檔泄露出去時,若文檔里還有這個隱形水印,你就能非常輕松的追蹤到是哪一個人的版本被泄露了。
不過我最后的用處,是用非常幼稚和暴力的方法,用它來防洗稿。
我知道,有人肯定會說這招太野路子,或者對推理模型根本沒用,或者在更高端的文本抽取技術面前還是擋不住。
但我只是一個想保護自己原創不被AI無腦洗稿的普通寫作者,用小成本就能干擾到絕大多數以GPT 4o、Gemini 2.0級別做段落拼貼的自動化洗稿黨,那其實已經足夠了。
這方法雖然粗暴,卻比啥都不做要強。
畢竟創作者的傷痛,就在于辛辛苦苦打磨的心血成果,被一些人,用一些手段,分分鐘變成別人的生意,你連哭訴都找不到門路。
就這樣。
如若這個小東西,也能幫到你。
那對我來說就值了。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克、芝蘭山
>/ 投稿或爆料,請聯系郵箱:wzglyay@gmail.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.