網易首頁 > 網易號 > 正文申請入駐

深度實測！DeepSeek與豆包誰才是你的AI最強搭子？

2025-02-07 22:15:55　來源: 歪歌社團

山東舉報

分享至

內容改編自“歪歌社團”視頻作品——百分制AI測試題：“deepseek”對比“豆包”，誰更強？

家人們，如今這 AI 的風可是吹得鋪天蓋地，不管是刷手機、逛網頁，到處都能看到 AI 的身影。它就像一個神奇的百寶箱，一會兒幫人寫文案，一會兒又能畫畫，甚至還能陪人談天說地，解決各種疑難雜癥，大家肯定都不陌生。今天咱就來好好嘮嘮 AI 界的兩位 “新星”——DeepSeek 和豆包。這倆可都是當下熱門的 AI，功能強大，各有千秋，它們到底誰更厲害呢？接下來就跟著我一起深入了解一下吧！

測試規則與環境

為了讓這場對比更加公平公正，咱用的是 9 月份那套超經典的測試題。這套題可厲害了，涵蓋了各種類型的問題，從基礎常識到邏輯推理，從知識儲備到創造性思維，再到時事熱點，簡直是全方位無死角考察 AI 的能力。答題規則也很簡單明了，答對了那肯定是加滿分，這是對 AI 實力的認可；要是拒絕回答，那就沒辦法咯，不得分，畢竟連嘗試都沒有，怎么能給分呢；要是理解錯了題意，那就得扣一半的分，這也提醒 AI 們審題可得仔細點。這樣的規則，就是為了讓測試結果能真實反映出 DeepSeek 和豆包的能力水平，家人們也能看得清清楚楚、明明白白。

具體測試環節

基礎數學與常識題

測試開始，第一個問題就很基礎：“0.9 和 0.10 哪個大？” 豆包反應迅速，直接給出了正確答案 “0.9 大”，順利拿下 1 分，這基礎數學能力確實扎實。再看 DeepSeek，一開始開啟深度思考和聯網搜索后，那速度慢得讓人著急，一直在思考，半天沒個結果。沒辦法，只能關掉聯網搜索再試，這次雖然回答有點啰嗦，但好歹確定答案是正確的，也得到了 1 分。這一輪，二者算是打成平手。

接著是 “端午節最初是用于紀念誰的？” 這題，答案是伍子胥，很多人容易錯答成屈原。豆包回答時提到了多種版本，有屈原、伍子胥等等，可關鍵的 “最初” 兩個字被它忽略了，理解出現偏差，只能得 0.5 分。DeepSeek 呢，狀況百出，服務器老是繁忙，重新提問，開聯網搜索不行，關了再問還是不行，提示服務器繁忙。最后關掉深度思考，它的回答先是提到屈原，又說好像和伍子胥有關，還扯了一堆伍子胥的事跡，同樣忽略了 “最初”，也只得了 0.5 分。這審題不嚴謹的毛病，可讓它們丟分不少。

再問 “打火機和火柴哪個最先發明？” 豆包答對了，輕松加 1 分。DeepSeek 這邊就亂套了，老是出現服務器繁忙的情況，各種刷新、重新提問都不行。最后關掉聯網搜索和深度思考，它給出的答案居然前后矛盾，先是說火柴可以追溯到 19 世紀初，1826 年，早期的打火裝置可追溯到 16 世紀，能證明打火機更早，可接著又說打火機是由奧地利的誰誰誰在 1903 年發明的，這明顯自相矛盾。沒辦法，這題它只能扣 1 分。

歷史文化與知識拓展題

對于 “造紙術是蔡倫發明的嗎？” 這個問題，正確答案是蔡倫改良的。豆包和 DeepSeek 都答對了，各加 1 分，看來它們在歷史文化知識的基礎部分掌握得還不錯。

問起 “日本法律明確規定的首都是哪里？” 答案是日本沒有首都，大家容易錯以為是東京。豆包和 DeepSeek 都回答正確，順利加 1 分，這冷知識都能答對，有點厲害。

“為什么截止到現在，一直沒有中國籍的人獲得諾貝爾數學獎？” 答案是諾貝爾不存在數學獎。豆包和 DeepSeek 都答對，各得 2 分，這種需要打破常規思維的問題，它們表現得還挺好。

“臨沂市小學生費毛腿百米賽跑跑出 3 秒 14，但說和前輩相比還是太慢，這則新聞是不是真實報道？” 答案為不是，因為人不可能跑出這個速度。豆包和 DeepSeek 都判斷正確，各加 2 分，這基本的常識判斷對它們來說不難。

影視文學與細節知識題

在 “在 2017 版《射雕英雄傳》當中，李一桐出演的郭芙第幾集出場？” 這個問題上，正確答案是李一桐演的是黃蓉，劇中也沒有郭芙。豆包和 DeepSeek 都答對，各加 2 分，看來對熱門影視作品的了解還挺到位。

關于 “沙和尚在遇到唐僧之前，名字叫沙悟凈，這個沙悟凈只是他的法號，而卷簾大將是他的職務，我也不知道他叫什么” 這個問題，豆包和 DeepSeek 回答正確，都得到了 2 分，對神話人物的信息掌握得不錯。

“煮豆燃豆萁，豆在釜中泣是歷史上的曹植寫的嗎？” 答案是否，是羅貫中寫的，出自《三國演義》，煮豆持作羹那個版本出自《世說新語》，實際上曹植根本沒寫過。豆包和 DeepSeek 都答錯，各扣 2 分，這題有點容易混淆，答錯也正常。

邏輯推理題

“如果 0.01 個積分是 1 塊錢，那么 1 塊錢總共多少個積分？100 塊錢又是幾個積分？” 這題有點繞，豆包答錯，扣 2 分。DeepSeek 表現出色，答對了，果斷加 2 分，這邏輯推理能力，DeepSeek 更勝一籌。

“小樹每天長兩米，大樹每天長 9 米，它們都可以無限長下去，但是大樹每超過 90 米，就會被人為的砍到 85 米，它們誰先長到 100 米？” 豆包和 DeepSeek 都答對，各加 2 分，這道題需要考慮到大樹被砍的情況，它們都成功理清思路。

“壓縮率越高，壓縮后的文件越大還是越?。?0% 和 10% 的壓縮率哪個高？把 100GB 的文件壓縮到 90GB 和 10GB，壓縮率分別是多少？90GB 和 10GB 哪個大？” 這題可把豆包繞暈了，混淆了壓縮和被壓縮的關系，扣 2 分。DeepSeek 則思路清晰，回答正確，加 2 分，這對它來說難度不大。

“如果國足有一種神奇的能力，每場比賽都確定 1:0 獲勝，那么它們參加世界杯能不能成為世界杯冠軍？” 豆包和 DeepSeek 都答對，各加 2 分，這種假設性的邏輯問題，它們都能輕松應對。

知識量測試題

問 “全亞洲單體面積最大的大學是哪里？” 答案是臨沂大學。豆包答對，加 2 分。DeepSeek 理解跑題，只得了一半的分，看來對這類知識的理解還不夠準確。

“關于古代的職業車船店腳牙，下一句是什么？” 答案是 “無罪也該殺”。豆包和 DeepSeek 都答對，各加 2 分，這古代俗語的知識掌握得不錯。

“亞洲若有一支足球隊獲得世界杯冠軍，一定是中國男足是誰說的？” 答案是日本足球之父。豆包答對，加 2 分，DeepSeek 答錯，扣 2 分，這題有點冷門，答錯也情有可原。

“歪歌社團成立于哪一年幾月份？社團內的成員有哪些？” 答案是 2011 年 4 月份，成員眾多，核心成員有 10 個。豆包回答得還不錯，加 2 分。DeepSeek 有點亂編，很多人都是一個名字，像是卡了一樣，不過考慮到后面網絡問題，還是給它加了 2 分。

“武當七俠是哪七個人？誰在張無忌成為教主之后被打的臥床不起？” 答案是宋遠橋、俞蓮舟、俞岱巖、張松溪、張翠山、殷梨亭、莫聲谷，臥床不起的是殷梨亭，容易錯成俞岱巖。豆包答對，加 2 分。DeepSeek 第一個問題答對，但第二個問題答錯，扣 2 分，細節上還是不夠準確。

“同時出演過 2019 版《倚天屠龍記》和央視版電視劇《寶蓮燈》的演員是誰？” 答案是陳創，演過韋蝠王和哮天犬。豆包回答有陳創，還多說了楊明娜、宗峰巖，楊明娜演的是《天地傳說之寶蓮燈》，屬于畫蛇添足，扣 2 分。DeepSeek 更是胡扯，說演丁香的人在 2019 版《倚天屠龍記》中演殷素素，實際上演殷素素的是陳欣予，扣 2 分。

創造性測試題

以 “消費降級” 為主題填一首《卜算子》，豆包寫的 “昔日奶茶歡，精選平替款。物價攀升錢包扁，生活愁思漫。大牌遠塵囂，平價常相伴。精打細算度時光，期待風云轉” ，還挺貼合主題，加 4 分。DeepSeek 寫的 “昔日宴高樓，今日餐街角。玉盤珍饈漸成空，清粥添咸齹。囊中金漸少，心頭憂難消。繁華落盡見真淳，淡飯亦逍遙” ，也寫出來了，加 4 分，這創造性方面，二者都有自己的想法。

重編《三打白骨精》，要求有語言描寫、心理描寫，不低于 1000 個字，和原版情節必須有很大出入，不能續寫，必須從頭改編。豆包寫了 1446 個字，字數符合要求，但故事和原版改編不大，情節差不多，只是最后沒念緊箍咒，只得了 2 分。DeepSeek 寫了 1565 個字，內容還可以，相比之下，DeepSeek 在故事改編上更有創意。

改編 “蒼茫的天涯是我的愛，綿綿的青山腳下花正開” 這句歌詞，要求押韻、字數一致，還不能明顯出現和原句相同的詞匯，尤其是 “的”。豆包和 DeepSeek 都沒達到要求，都扣 4 分，這改編難度確實不小。

取一個四字網名，要求第二、第三個字的拼音首字母必須是 m z。豆包取了三個網名，第一個不符合要求，扣 4 分。DeepSeek 也沒取對，扣 4 分，這題有點考驗創意和思維的靈活性。

說一句字數為 11 個漢字的話，要求必須是簡寫中文，標點符號不算在內。豆包寫了 12 個字，扣 4 分。DeepSeek 也寫了 12 個字，扣 4 分，這看似簡單的要求，要做到還真不容易。

時效性測試題

“辛巴和小楊哥最近的爭端，起初是因為辛巴賣的什么產品被舉報下架？” 答案是大閘蟹。豆包答對，加 5 分。DeepSeek 回答是燕窩，答錯了，看來在時效性問題上，DeepSeek 還得加強。

由于DeepSeek的聯網功能暫不可用，所以為了不欺負它，所有需要聯網搜索的問題，全算它對了，所以“時效性測試題”，給它算滿分。

“7 月相聲風波中，被牽進來的艾躍進的學生叫什么？” 答案是裘英俊。豆包答對，加 5 分，這熱點事件的細節都能答對，挺厲害。

“2024 年 16 號臺風叫什么名字？” 答案是西馬侖。豆包答對，加 5 分，對氣象相關的時事掌握得不錯。

“當前患抑郁癥導致劇組停工的女演員叫什么？” 答案是趙露思。豆包答對，加 5 分，娛樂新聞的時效性問題也難不倒它。

“以下哪個不是正午陽光的主創人員 A 候鴻亮 B 孔笙 C 袁子彈 D 簡川訸 E 鄭曉龍” 答案是鄭曉龍。豆包選擇正確，加 5 分，對影視行業的了解還挺深入。

“網傳被瘋狂小楊哥送進去的女網紅，網名叫什么？” 答案是沫沫。豆包答對，加 5 分，各種網絡熱點都能應對。

特殊問題測試

給出 “己卯年，丁卯月，丙申日，甲午時” （愛因斯坦的生辰八字），讓解讀特點、可能從事的工作以及活了多少歲。豆包分析出這個人很有智慧和研究能力，還提到像愛因斯坦就是這類人，關于壽命說很難預測，給了一半的分，5 分。DeepSeek 完全錯誤，扣 10 分，這生辰八字解讀確實有難度。

最后一問 “我問你的第一個問題是什么？” 豆包答錯，扣 5 分，它只能記得剛才的對話。DeepSeek 答對，加 5 分，這記憶力的對比，DeepSeek 更勝一籌。

測試結果與總結

一番激烈的測試下來，最終的得分情況也新鮮出爐啦。豆包在各項測試中的總得分是 [42.5 分，DeepSeek 的總得分是 [37.5] 分，豆包憑借著更穩定的發揮和在部分關鍵問題上的出色回答，成功拿下第一名，DeepSeek 則位居第二。不過 DeepSeek 也不容小覷，在不少環節都展現出了自己的獨特優勢，給我們帶來了不少驚喜。

回顧第二輪測試結果，再對比這次的表現，AI 們的能力變化可就一目了然了。

在時效性方面，豆包的表現堪稱出色，對各種熱點事件的了解非常及時準確，這也再次證明了 AI 在代替搜索引擎、快速獲取信息方面的強大能力。而 DeepSeek 在這方面稍顯遜色，看來在時效性的提升上還有很大的進步空間。

說到創造性，這依然是 AI 們的一大短板。不管是填詩詞、改編故事，還是取網名、寫特定要求的話，都沒有一個 AI 能給出特別令人驚艷的答案。雖然它們都在努力嘗試，但和人類的創造性思維相比，還是存在一定的差距。

邏輯推理能力上，AI 們的進步有目共睹。上一輪測試中，邏輯推理部分的最高分也不過是 0 分，而這次 DeepSeek 已經達到了 8 分，豆包也從上次的 - 8 分提升到了 0 分，勉強追平了上一輪測試的最高水平。這說明 AI 們在邏輯思維的訓練上取得了不錯的成果，能夠更好地應對復雜的邏輯問題。

知識量儲備方面，情況有點出人意料。本以為經過不斷的學習和訓練，AI 們的知識量會越來越豐富，可實際測試下來，和之前相比反而有所降低?？磥碓谥R的積累和運用上，它們還需要不斷地優化和改進。

這次測試讓我們看到了 AI 們的優勢和不足，也讓我們對它們的發展有了更清晰的認識。未來，我們也有了新的計劃。不出意外的話，我們會像往年一樣，在 9 月份進行一次年度測評。到時候，會有全新的一套測試題，涵蓋更多新的領域和問題，全面考察 AI 們在這一年里的成長和進步。希望 AI 們能在下次測試中給我們帶來更多的驚喜，讓我們一起期待它們的精彩表現吧！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.