這兩天,DeepSeek-R1火的飛起,在中日美三個Appstore榜上登頂。
昨晚,還直接干崩英偉達,盤前先死13個點,連帶著臺積電一起。
幾乎一夜之間,所有人都在關(guān)注DeepSeek,甚至我在老家,完全沒用過AI的七大姑八大姨,都在問我,DeepSeek是什么,怎么用。
還有一些人體驗了一下后,拿著8.11和8.9誰大誰小的截圖跟我說,這玩意也不行啊。
感覺市面上,關(guān)于DeepSeek的信息還是很亂。
所以,今天除夕,龍年的最后一篇文章,獻給DeepSeek,也獻給我們自己。
我想用8個問題和答案,來讓大家詳細的了解,DeepSeek-R1這個模型,是什么,以及,提示詞應(yīng)該怎么寫,到底怎么用。
話不多說,開始。
一. DeepSeek是什么?
DeepSeek,是一家在2023年7月17日成立的公司深度求索所開發(fā)的大模型名稱。
2024年1月5日,他們正式發(fā)布DeepSeek LLM,這是深度求索第一個發(fā)布的AI大模型。
2024年5月7日,他們發(fā)布DeepSeek-V2,正式打響中國大模型價格戰(zhàn),當時新發(fā)布的 DeepSeek-V2 的API價格只有 GPT-4o 的 2.7%,隨后一周時間,國產(chǎn)廠商全部跟進,字節(jié)、阿里、百度、騰訊全部降價。
2024年12月26日,DeepSeek-V3正式發(fā)布且直接開源,而且訓(xùn)練成本僅為557.6萬美元,剔除掉Meta、OpenAI等大廠的前期探索成本,大概是別人的三分之一,并且整體模型評測能力媲美閉源模型,震驚海外,自此,東方的神秘力量徹底坐實。
2024年1月20日,全新的推理模型DeepSeek-R1發(fā)布,同樣發(fā)布并開源,效果媲美OpenAI o1,同時API價格僅為OpenAI o1的3.7%,再一次震驚海外,讓Meta連夜成立四個研究小組,讓全球算力暴跌,英偉達的神話都岌岌可危。
就是這么一家公司,而深度求索的背后,是著名量化私募幻方基金,而基金的盈利模式非常簡單,跟管理規(guī)模綁定,固定收取管理規(guī)模的管理費和收益部分的提成資金,無論基金漲跌都能賺錢,真正的旱澇保收的行業(yè)。
所以,幻方不缺錢,當年賺了錢,在英偉達還沒向中國禁售的時候,幻方直接能掏錢搭一個萬卡A100集群。
這也讓深度求索,讓DeepSeek,不以盈利為導(dǎo)向,目標,就是AI的星辰大海。
二. DeepSeek-R1是什么?
DeepSeek-R1,就是最近爆火的主角了。
也是直接讓各路美國AI大佬破防的始作俑者。
給奧特曼都在X上開始陰陽了。
很多人拿DeepSeek-R1和GPT4o比,其實是不對的。
首先,GPT4o是個多模態(tài)通用模型,可以理解圖片、語音、視頻,也可以輸出語音。多模態(tài)往后做,更像Gemini 2,是一個多模態(tài)大一統(tǒng)模型,可以理解一切模態(tài),也可以輸出一切模態(tài)。
而DeepSeek-R1是一個深度推理模型,對標OpenAI的應(yīng)該是OpenAI o1,而不是GPT4o,關(guān)于OpenAI o1曾經(jīng)我首發(fā)寫過一篇文章,可以去看,就不過多贅述了:
現(xiàn)在回頭看,當時這個副標題,還是很有前瞻性的。
我也讓DeepSeek列個了4o和o1的對比表格,大家應(yīng)該也能一目了然。
而R1,可以直接類比o1,兩者在跑分上,幾乎相同。
并且已經(jīng)開源。
HuggingFace 鏈接:https://huggingface.co/deepseek-ai
論文鏈接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
三.DeepSeek-R1在哪用?
DeepSeek-R1除了面向開發(fā)者的開源模型和API,也有面向普通用戶的C端版本。
網(wǎng)頁版:https://chat.deepseek.com/
當你勾上深度思考功能,此時就是使用R1模型,當你不勾的時候,使用的是類GPT4o的v3模型。
當然他們也有APP版本,你直接在應(yīng)用商店搜索DeepSeek就好。
跟網(wǎng)頁端交互基本一致。目前免費,就是用戶增速過快,所以偶爾會有崩潰斷網(wǎng)連不上問題,你可以在這個地方,來看DeepSeek的服務(wù)器狀態(tài)。
https://status.deepseek.com/
四. 應(yīng)該怎么跟R1對話?
首先,我想明確一點的是,DeepSeek-R1是推理模型,不是通用模型。
在幾個月前OpenAI o1剛剛發(fā)布時,我用通用模型的方式跟o1對話,寫了一堆的結(jié)構(gòu)化提示詞,得到了極差的效果,那時候我一度覺得這玩意是個垃圾。
而后面,我才發(fā)現(xiàn),其實是我自己的思維慣性,這玩意跟4o不一樣,這不是一個很傻的聊天模型。
這是一個能力很牛逼但不知道你想要什么的真實員工。
今年1月也有一篇海外的文章很火,叫《o1 isn’t a chat model (and that’s the point)》。
跟我是完全一樣的看法。
所以,有一個點一定要注意,明確你的目標,而不是給模型任務(wù)。
例如我們以前在寫prompt的時候,總是會寫你是一個XXX,現(xiàn)在我的任務(wù)是XXX,你要按照1、2、3步來給我執(zhí)行balabala。
但是現(xiàn)在,請拋棄那些寫法。
把你的一切,交給AI,讓它去進行自我推理,效果會更好。AI會自動填上那些你沒說出口的話,會給你想出可能更好的解決方案。
有一個不得不承認的事實是,我是一個很普通的普通人,而像我一樣的很多普通人們,現(xiàn)在大概率是不如AI博學(xué)和聰明的。
所以,不如說出你的目標,把他當作一個很牛逼的員工,讓他,放手去做。
比如這個case。
只需要表達你是誰+你的目標就OK。
特別是你是誰這個背景信息,非常非常的有用。
所以請拋棄掉一起過往所學(xué)習(xí)的結(jié)構(gòu)化框架,如果真的需要有一個萬能Prompt模板,那就是:
你是誰 + 背景信息 + 你的目標
背景信息給的越多越能讓R1理解你的需求幫助你更好的完成任務(wù)。
時刻把他當成:
這是一個能力很牛逼但不知道你想要什么的員工。
最牛逼的提示詞技巧,就是沒有技巧。
大道至簡,重劍無鋒。
所以,千言萬語匯聚成一句話就是:用人話清晰的表達出你的需求,這就夠了。
五. R1輸出的內(nèi)容看不懂?
很多人在用“說人話”這三個字,來表達推理模型和通用模型不一樣,這其實有點奇怪。
不過從實用角度來說,這確實是一個能讓普通人看懂AI輸出專業(yè)內(nèi)容的小技巧。
不過這并不是一個推理模型才有的技巧,因為一直就存在,本質(zhì)上就是對方不知道你是誰,不知道你的理解能力和你的學(xué)識能力是什么水平。
所以我也想分享一個我自己這兩年跟AI對話時用的最多的一個小技巧,也是 我自 己最常用的“人話”prompt:
我是一個小學(xué)生。
當你在跟AI對話時,把這句話往前一擺,自降身位,你就會發(fā)現(xiàn),一切都通了,一切都能看的懂了。
比如我想讓R1給我解釋一下什么叫大模型中的RL用法。
如果不用這句話的話,就會得到這樣的解釋。
我相信你看到一定腦殼疼。你就是不懂才需要讓它給你解釋,結(jié)果解釋了個這。
但是,如果把那個神句加上呢?
反正我是一下子能看了,舒服了多了,可能我就真的是個小學(xué)生的水平。。。
當然如果你想稍微進階一點,就可以說,我是一個初中生,或者,我是一個高中生,一點一點的可控升級。
我用了兩年,非常好用,推薦給大家。
六. R1的寫作很強嗎?
R1除了能非常好的做常規(guī)推理模型都能做的數(shù)學(xué)題、代碼等等,這次有一個非常非常特別的點是:
中文寫作能力強到爆炸。
過往,大家都說,在寫作能力上幾乎所有的大模型都是眾生平等的一坨屎,唯有Claude超出了一坨之外,獨立于三界之上。
而這一次,DeepSeek-R1在中文寫作和文筆上,已經(jīng)是獨一檔的領(lǐng)先了。
而且對于文風(fēng)的模擬,效果極佳。
比如我非常非常喜歡知乎上一個大V叫大師兄朱炫的文筆。
我甚至都不需要跟DeepSeek-R1說朱炫的文筆是什么樣的,直接就說一句話:
以知乎大V朱炫的文風(fēng),來銳評一下愛情的求而不得,告訴大家,總會有人在等你。
來給大家看看成文:
雖然達不到朱炫那百分百的功力,達不到他那種多智而近妖的文筆,但是已經(jīng)非常非常強了。
畢竟,只需要一句話而已。
再寫一首,李煜風(fēng)格的詩詞。
“以李煜的詩詞風(fēng)格,來寫一首我回老家沒有朋友玩的感覺”
《虞美人·歸鄉(xiāng)感懷》
故園舊巷行人少,空有榆錢老。
秋千院落鎖蒼苔,偶見鄰家黃犬過階來。
重游往日嬉春處,蛛網(wǎng)斜陽駐。
笑談聲遠柳風(fēng)涼,唯剩一庭明月照空廊。
對仗、押韻全都到位了。
真的,非常的強。
七. R1可以聯(lián)網(wǎng)嗎?
眾人皆知推理模型好,但是推理模型,幾乎都不聯(lián)網(wǎng)。
典型如OpenAI o1。
這給我?guī)砹朔浅5亩嗟睦_,要知道,OpenAI o1的知識庫還是24年,很多東西都不知道,更別提一些所謂的實事了,你想用它來梳理分析一些最近的數(shù)據(jù),比如美元指數(shù)、比如最近的財報等等,它完全不知道,甚至還傳不了PDF,就非常的der比。
而DeepSeek,是為數(shù)不多的,推理+聯(lián)網(wǎng)的。
我們來試試這句話:我想用魯迅的文風(fēng)寫一篇2000字的公眾號文章,分析一下2025春節(jié)檔哪幾部電影能爆,不要結(jié)構(gòu)化。
DeepSeek去網(wǎng)上搜了50個網(wǎng)頁,然后思考了半天。
用魯迅的文風(fēng),成了一篇文。
效果非常好。
雖然整體測下來,在聯(lián)網(wǎng)資料的RAG層面還有一些問題和不盡如意,但是已經(jīng)非常強了,至少,能聽懂我的話,知道我想要的是魯迅風(fēng)格。
再給一些時間。
八. 算力神話崩盤了嗎?
最后,我想說一下算力的問題。
昨天,A股算力和美股算力都崩了,大家?guī)缀醵及言驓w結(jié)到DeepSeek很便宜,所以未來不需要那么多算力,算力神話崩塌了。
但是我覺得這個思路不太對。
在第一次工業(yè)革命的時候,有一個經(jīng)濟學(xué)里面非常著名的悖論,是由威廉·斯坦利·杰文斯提出來的,叫做Jevons 悖論。
當時,英國的工業(yè)革命正在加速發(fā)展,蒸汽機的效率也在不斷提高。人們普遍認為,蒸汽機會越來越節(jié)能,也越來越會減少煤炭消耗。
但實際情況卻打了所有人的臉。
因為,更高效的蒸汽機降低了使用煤炭的成本,結(jié)果導(dǎo)致蒸汽機被更廣泛應(yīng)用,煤炭消耗總量反而大幅增加。
原因大概是這樣的:
假設(shè)新技術(shù)讓汽車的燃油效率提高了 50%(比如每加侖能跑 30 公里變成 45 公里)。照理來說,這應(yīng)該減少燃油總消耗,但現(xiàn)實可能是:
由于油耗更低,開車的成本下降,人們更愿意開車,開車里程增加。
購車門檻降低,更多人買車。
物流成本下降,商家擴大運輸量。
最終 ,油耗效率提高后,燃油消耗的總量可能不降反升。
跟現(xiàn)在算力邏輯是一摸一樣,如果你要把DeepSeek對與算力的影響帶入的話,那其實就會導(dǎo)致:
因為大模型需要的訓(xùn)練和推理算力成本下降,反而會推動AI應(yīng)用和生態(tài)的繁榮,端側(cè)、個人級別大模型逐漸成熟,算力的總需求反而越來越大。
至于股市算力崩盤,我想說的是,漲多了就是原罪。
而且美元指數(shù)都崩成什么樣了,直接破了60日均線,納斯納克和英偉達不崩才奇怪好吧。
只能說,DeepSeek有短期驅(qū)動效應(yīng),但是核心還是內(nèi)身問題,DeepSeek踩中了這個節(jié)點,天時地利人和。
此刻的DeepSeek,就是眾望所歸的,天命人。
昨天,馮驥的微博說,DeepSeek是國運。
我想說,是,也不是。
國運不是單一的點,而是一群點而連成的面。
流浪地球、新能源車、黑神話悟空、六代機、TikTok、DeepSeek等等等等。
這些點連起來的面,才是真正的國運。
泱泱中華五千年。
無論多少風(fēng)雨。
未來也必定。
國運昌隆。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@gmail.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.