99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

深度實測!DeepSeek與豆包誰才是你的AI最強搭子?

0
分享至

內容改編自“歪歌社團”視頻作品——百分制AI測試題:“deepseek”對比“豆包”,誰更強?


家人們,如今這 AI 的風可是吹得鋪天蓋地,不管是刷手機、逛網頁,到處都能看到 AI 的身影。它就像一個神奇的百寶箱,一會兒幫人寫文案,一會兒又能畫畫,甚至還能陪人談天說地,解決各種疑難雜癥,大家肯定都不陌生。今天咱就來好好嘮嘮 AI 界的兩位 “新星”——DeepSeek 和豆包。這倆可都是當下熱門的 AI,功能強大,各有千秋,它們到底誰更厲害呢?接下來就跟著我一起深入了解一下吧!

測試規則與環境

為了讓這場對比更加公平公正,咱用的是 9 月份那套超經典的測試題。這套題可厲害了,涵蓋了各種類型的問題,從基礎常識到邏輯推理,從知識儲備到創造性思維,再到時事熱點,簡直是全方位無死角考察 AI 的能力。答題規則也很簡單明了,答對了那肯定是加滿分,這是對 AI 實力的認可;要是拒絕回答,那就沒辦法咯,不得分,畢竟連嘗試都沒有,怎么能給分呢;要是理解錯了題意,那就得扣一半的分,這也提醒 AI 們審題可得仔細點。這樣的規則,就是為了讓測試結果能真實反映出 DeepSeek 和豆包的能力水平,家人們也能看得清清楚楚、明明白白。

具體測試環節
基礎數學與常識題

測試開始,第一個問題就很基礎:“0.9 和 0.10 哪個大?” 豆包反應迅速,直接給出了正確答案 “0.9 大”,順利拿下 1 分,這基礎數學能力確實扎實。再看 DeepSeek,一開始開啟深度思考和聯網搜索后,那速度慢得讓人著急,一直在思考,半天沒個結果。沒辦法,只能關掉聯網搜索再試,這次雖然回答有點啰嗦,但好歹確定答案是正確的,也得到了 1 分。這一輪,二者算是打成平手。

接著是 “端午節最初是用于紀念誰的?” 這題,答案是伍子胥,很多人容易錯答成屈原。豆包回答時提到了多種版本,有屈原、伍子胥等等,可關鍵的 “最初” 兩個字被它忽略了,理解出現偏差,只能得 0.5 分。DeepSeek 呢,狀況百出,服務器老是繁忙,重新提問,開聯網搜索不行,關了再問還是不行,提示服務器繁忙。最后關掉深度思考,它的回答先是提到屈原,又說好像和伍子胥有關,還扯了一堆伍子胥的事跡,同樣忽略了 “最初”,也只得了 0.5 分。這審題不嚴謹的毛病,可讓它們丟分不少。

再問 “打火機和火柴哪個最先發明?” 豆包答對了,輕松加 1 分。DeepSeek 這邊就亂套了,老是出現服務器繁忙的情況,各種刷新、重新提問都不行。最后關掉聯網搜索和深度思考,它給出的答案居然前后矛盾,先是說火柴可以追溯到 19 世紀初,1826 年,早期的打火裝置可追溯到 16 世紀,能證明打火機更早,可接著又說打火機是由奧地利的誰誰誰在 1903 年發明的,這明顯自相矛盾。沒辦法,這題它只能扣 1 分。

歷史文化與知識拓展題

對于 “造紙術是蔡倫發明的嗎?” 這個問題,正確答案是蔡倫改良的。豆包和 DeepSeek 都答對了,各加 1 分,看來它們在歷史文化知識的基礎部分掌握得還不錯。

問起 “日本法律明確規定的首都是哪里?” 答案是日本沒有首都,大家容易錯以為是東京。豆包和 DeepSeek 都回答正確,順利加 1 分,這冷知識都能答對,有點厲害。

“為什么截止到現在,一直沒有中國籍的人獲得諾貝爾數學獎?” 答案是諾貝爾不存在數學獎。豆包和 DeepSeek 都答對,各得 2 分,這種需要打破常規思維的問題,它們表現得還挺好。

“臨沂市小學生費毛腿百米賽跑跑出 3 秒 14,但說和前輩相比還是太慢,這則新聞是不是真實報道?” 答案為不是,因為人不可能跑出這個速度。豆包和 DeepSeek 都判斷正確,各加 2 分,這基本的常識判斷對它們來說不難。

影視文學與細節知識題

在 “在 2017 版《射雕英雄傳》當中,李一桐出演的郭芙第幾集出場?” 這個問題上,正確答案是李一桐演的是黃蓉,劇中也沒有郭芙。豆包和 DeepSeek 都答對,各加 2 分,看來對熱門影視作品的了解還挺到位。

關于 “沙和尚在遇到唐僧之前,名字叫沙悟凈,這個沙悟凈只是他的法號,而卷簾大將是他的職務,我也不知道他叫什么” 這個問題,豆包和 DeepSeek 回答正確,都得到了 2 分,對神話人物的信息掌握得不錯。

“煮豆燃豆萁,豆在釜中泣是歷史上的曹植寫的嗎?” 答案是否,是羅貫中寫的,出自《三國演義》,煮豆持作羹那個版本出自《世說新語》,實際上曹植根本沒寫過。豆包和 DeepSeek 都答錯,各扣 2 分,這題有點容易混淆,答錯也正常。

邏輯推理題

“如果 0.01 個積分是 1 塊錢,那么 1 塊錢總共多少個積分?100 塊錢又是幾個積分?” 這題有點繞,豆包答錯,扣 2 分。DeepSeek 表現出色,答對了,果斷加 2 分,這邏輯推理能力,DeepSeek 更勝一籌。

“小樹每天長兩米,大樹每天長 9 米,它們都可以無限長下去,但是大樹每超過 90 米,就會被人為的砍到 85 米,它們誰先長到 100 米?” 豆包和 DeepSeek 都答對,各加 2 分,這道題需要考慮到大樹被砍的情況,它們都成功理清思路。

“壓縮率越高,壓縮后的文件越大還是越?。?0% 和 10% 的壓縮率哪個高?把 100GB 的文件壓縮到 90GB 和 10GB,壓縮率分別是多少?90GB 和 10GB 哪個大?” 這題可把豆包繞暈了,混淆了壓縮和被壓縮的關系,扣 2 分。DeepSeek 則思路清晰,回答正確,加 2 分,這對它來說難度不大。

“如果國足有一種神奇的能力,每場比賽都確定 1:0 獲勝,那么它們參加世界杯能不能成為世界杯冠軍?” 豆包和 DeepSeek 都答對,各加 2 分,這種假設性的邏輯問題,它們都能輕松應對。

知識量測試題

問 “全亞洲單體面積最大的大學是哪里?” 答案是臨沂大學。豆包答對,加 2 分。DeepSeek 理解跑題,只得了一半的分,看來對這類知識的理解還不夠準確。

“關于古代的職業車船店腳牙,下一句是什么?” 答案是 “無罪也該殺”。豆包和 DeepSeek 都答對,各加 2 分,這古代俗語的知識掌握得不錯。

“亞洲若有一支足球隊獲得世界杯冠軍,一定是中國男足是誰說的?” 答案是日本足球之父。豆包答對,加 2 分,DeepSeek 答錯,扣 2 分,這題有點冷門,答錯也情有可原。

“歪歌社團成立于哪一年幾月份?社團內的成員有哪些?” 答案是 2011 年 4 月份,成員眾多,核心成員有 10 個。豆包回答得還不錯,加 2 分。DeepSeek 有點亂編,很多人都是一個名字,像是卡了一樣,不過考慮到后面網絡問題,還是給它加了 2 分。

“武當七俠是哪七個人?誰在張無忌成為教主之后被打的臥床不起?” 答案是宋遠橋、俞蓮舟、俞岱巖、張松溪、張翠山、殷梨亭、莫聲谷,臥床不起的是殷梨亭,容易錯成俞岱巖。豆包答對,加 2 分。DeepSeek 第一個問題答對,但第二個問題答錯,扣 2 分,細節上還是不夠準確。

“同時出演過 2019 版《倚天屠龍記》和央視版電視劇《寶蓮燈》的演員是誰?” 答案是陳創,演過韋蝠王和哮天犬。豆包回答有陳創,還多說了楊明娜、宗峰巖,楊明娜演的是《天地傳說之寶蓮燈》,屬于畫蛇添足,扣 2 分。DeepSeek 更是胡扯,說演丁香的人在 2019 版《倚天屠龍記》中演殷素素,實際上演殷素素的是陳欣予,扣 2 分。

創造性測試題

以 “消費降級” 為主題填一首《卜算子》,豆包寫的 “昔日奶茶歡,精選平替款。物價攀升錢包扁,生活愁思漫。大牌遠塵囂,平價常相伴。精打細算度時光,期待風云轉” ,還挺貼合主題,加 4 分。DeepSeek 寫的 “昔日宴高樓,今日餐街角。玉盤珍饈漸成空,清粥添咸齹。囊中金漸少,心頭憂難消。繁華落盡見真淳,淡飯亦逍遙” ,也寫出來了,加 4 分,這創造性方面,二者都有自己的想法。

重編《三打白骨精》,要求有語言描寫、心理描寫,不低于 1000 個字,和原版情節必須有很大出入,不能續寫,必須從頭改編。豆包寫了 1446 個字,字數符合要求,但故事和原版改編不大,情節差不多,只是最后沒念緊箍咒,只得了 2 分。DeepSeek 寫了 1565 個字,內容還可以,相比之下,DeepSeek 在故事改編上更有創意。

改編 “蒼茫的天涯是我的愛,綿綿的青山腳下花正開” 這句歌詞,要求押韻、字數一致,還不能明顯出現和原句相同的詞匯,尤其是 “的”。豆包和 DeepSeek 都沒達到要求,都扣 4 分,這改編難度確實不小。

取一個四字網名,要求第二、第三個字的拼音首字母必須是 m z。豆包取了三個網名,第一個不符合要求,扣 4 分。DeepSeek 也沒取對,扣 4 分,這題有點考驗創意和思維的靈活性。

說一句字數為 11 個漢字的話,要求必須是簡寫中文,標點符號不算在內。豆包寫了 12 個字,扣 4 分。DeepSeek 也寫了 12 個字,扣 4 分,這看似簡單的要求,要做到還真不容易。

時效性測試題

“辛巴和小楊哥最近的爭端,起初是因為辛巴賣的什么產品被舉報下架?” 答案是大閘蟹。豆包答對,加 5 分。DeepSeek 回答是燕窩,答錯了,看來在時效性問題上,DeepSeek 還得加強。

由于DeepSeek的聯網功能暫不可用,所以為了不欺負它,所有需要聯網搜索的問題,全算它對了,所以“時效性測試題”,給它算滿分。

“7 月相聲風波中,被牽進來的艾躍進的學生叫什么?” 答案是裘英俊。豆包答對,加 5 分,這熱點事件的細節都能答對,挺厲害。

“2024 年 16 號臺風叫什么名字?” 答案是西馬侖。豆包答對,加 5 分,對氣象相關的時事掌握得不錯。

“當前患抑郁癥導致劇組停工的女演員叫什么?” 答案是趙露思。豆包答對,加 5 分,娛樂新聞的時效性問題也難不倒它。

“以下哪個不是正午陽光的主創人員 A 候鴻亮 B 孔笙 C 袁子彈 D 簡川訸 E 鄭曉龍” 答案是鄭曉龍。豆包選擇正確,加 5 分,對影視行業的了解還挺深入。

“網傳被瘋狂小楊哥送進去的女網紅,網名叫什么?” 答案是沫沫。豆包答對,加 5 分,各種網絡熱點都能應對。

特殊問題測試

給出 “己卯年,丁卯月,丙申日,甲午時” (愛因斯坦的生辰八字),讓解讀特點、可能從事的工作以及活了多少歲。豆包分析出這個人很有智慧和研究能力,還提到像愛因斯坦就是這類人,關于壽命說很難預測,給了一半的分,5 分。DeepSeek 完全錯誤,扣 10 分,這生辰八字解讀確實有難度。

最后一問 “我問你的第一個問題是什么?” 豆包答錯,扣 5 分,它只能記得剛才的對話。DeepSeek 答對,加 5 分,這記憶力的對比,DeepSeek 更勝一籌。

測試結果與總結


一番激烈的測試下來,最終的得分情況也新鮮出爐啦。豆包在各項測試中的總得分是 [42.5 分,DeepSeek 的總得分是 [37.5] 分 ,豆包憑借著更穩定的發揮和在部分關鍵問題上的出色回答,成功拿下第一名,DeepSeek 則位居第二。不過 DeepSeek 也不容小覷,在不少環節都展現出了自己的獨特優勢,給我們帶來了不少驚喜。

回顧第二輪測試結果,再對比這次的表現,AI 們的能力變化可就一目了然了。


在時效性方面,豆包的表現堪稱出色,對各種熱點事件的了解非常及時準確,這也再次證明了 AI 在代替搜索引擎、快速獲取信息方面的強大能力。而 DeepSeek 在這方面稍顯遜色,看來在時效性的提升上還有很大的進步空間。

說到創造性,這依然是 AI 們的一大短板。不管是填詩詞、改編故事,還是取網名、寫特定要求的話,都沒有一個 AI 能給出特別令人驚艷的答案。雖然它們都在努力嘗試,但和人類的創造性思維相比,還是存在一定的差距。


邏輯推理能力上,AI 們的進步有目共睹。上一輪測試中,邏輯推理部分的最高分也不過是 0 分,而這次 DeepSeek 已經達到了 8 分,豆包也從上次的 - 8 分提升到了 0 分 ,勉強追平了上一輪測試的最高水平。這說明 AI 們在邏輯思維的訓練上取得了不錯的成果,能夠更好地應對復雜的邏輯問題。

知識量儲備方面,情況有點出人意料。本以為經過不斷的學習和訓練,AI 們的知識量會越來越豐富,可實際測試下來,和之前相比反而有所降低??磥碓谥R的積累和運用上,它們還需要不斷地優化和改進。

這次測試讓我們看到了 AI 們的優勢和不足,也讓我們對它們的發展有了更清晰的認識。未來,我們也有了新的計劃。不出意外的話,我們會像往年一樣,在 9 月份進行一次年度測評。到時候,會有全新的一套測試題,涵蓋更多新的領域和問題,全面考察 AI 們在這一年里的成長和進步。希望 AI 們能在下次測試中給我們帶來更多的驚喜,讓我們一起期待它們的精彩表現吧!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
蠻好的人生:薛曉舟搖身一變成總經理,胡曼黎奪回榮耀還清400萬

蠻好的人生:薛曉舟搖身一變成總經理,胡曼黎奪回榮耀還清400萬

白公子探劇
2025-04-27 17:19:34
臺灣街頭凌晨18人大亂斗見血!民眾驚呼“夜晚很不平靜”

臺灣街頭凌晨18人大亂斗見血!民眾驚呼“夜晚很不平靜”

海峽導報社
2025-04-27 09:18:04
《水餃皇后》首波口碑出爐!現場觀眾的打分和評價都“一針見血”

《水餃皇后》首波口碑出爐!現場觀眾的打分和評價都“一針見血”

娛樂圈筆娛君
2025-04-26 20:30:28
六盤水用1200萬抵扣2.2億債務,女子拒絕后遭逮捕,被批不識抬舉

六盤水用1200萬抵扣2.2億債務,女子拒絕后遭逮捕,被批不識抬舉

干史人
2025-04-25 08:30:03
霍汶希拍視頻王菲意外出鏡,站在陳偉霆身后揮手,像個小迷妹一樣

霍汶希拍視頻王菲意外出鏡,站在陳偉霆身后揮手,像個小迷妹一樣

一路朝南
2025-04-27 11:10:46
特朗普出手了,圍繞臺海一口氣打出4招,留給中國時間已不多

特朗普出手了,圍繞臺海一口氣打出4招,留給中國時間已不多

獵火照狼山
2025-04-25 17:42:47
世界誤判了特朗普,他有確定性!

世界誤判了特朗普,他有確定性!

環球策論
2025-04-26 23:29:51
G2究竟該如何拆招?楊鳴留了一手,破解強延誤和包夾是關鍵

G2究竟該如何拆招?楊鳴留了一手,破解強延誤和包夾是關鍵

君馬體育
2025-04-27 17:11:03
省紀委監委公開通報六起違反中央八項規定精神典型問題

省紀委監委公開通報六起違反中央八項規定精神典型問題

周口廣電融媒
2025-04-27 09:23:34
沈陽市最新任免名單!

沈陽市最新任免名單!

黃河新聞網呂梁頻道
2025-04-27 11:13:47
我每次回婆家過年都丟首飾,今年我戴了假手鐲,成功揪出兇手

我每次回婆家過年都丟首飾,今年我戴了假手鐲,成功揪出兇手

林林故事揭秘
2025-04-22 17:50:38
博士婚后兩年懷不上,夫妻檢查都正常,一上婦科產床:處女膜還在

博士婚后兩年懷不上,夫妻檢查都正常,一上婦科產床:處女膜還在

菁媽育兒
2025-04-26 13:53:54
張學良晚年冷笑說,一生最佩服一個人,不是毛主席也不是蔣介石

張學良晚年冷笑說,一生最佩服一個人,不是毛主席也不是蔣介石

聞識
2024-10-16 12:17:38
太有錢了!二姐回國后帶瑾汐去掛水,送49700元的梵克雅寶手鏈

太有錢了!二姐回國后帶瑾汐去掛水,送49700元的梵克雅寶手鏈

阿矗論古今
2025-04-27 16:11:11
“7w是月薪嗎?”復旦女吐槽就業無門,一句話卻暴露了自己的認知

“7w是月薪嗎?”復旦女吐槽就業無門,一句話卻暴露了自己的認知

妍妍教育日記
2025-04-22 21:22:42
廈門上市公司曝出董事長傷筋動骨婚變

廈門上市公司曝出董事長傷筋動骨婚變

經濟那道理
2025-04-27 15:28:21
突然發現全國人民都不敢接電話了!

突然發現全國人民都不敢接電話了!

振華觀史
2025-04-15 13:29:07
甲鈷胺不只是修復神經,還能治療這5種病,但需要注意4個問題

甲鈷胺不只是修復神經,還能治療這5種病,但需要注意4個問題

藥師方健
2025-04-26 22:57:57
趙心童5連鞭!德比戰領先,丁俊暉龐俊旭大比分落后,3人輸外戰?

趙心童5連鞭!德比戰領先,丁俊暉龐俊旭大比分落后,3人輸外戰?

劉姚堯的文字城堡
2025-04-27 06:42:09
男子被打身亡后續,姐姐舉報:保護傘浮出水面,院長去年辭職了

男子被打身亡后續,姐姐舉報:保護傘浮出水面,院長去年辭職了

江山揮筆
2025-04-26 09:46:06
2025-04-27 18:04:49
歪歌社團 incentive-icons
歪歌社團
小說作家,歪歌社團團長。
1479文章數 2021關注度
往期回顧 全部

科技要聞

兩萬字看懂先進封裝

頭條要聞

國民黨主席朱立倫和謝龍介赴警分局自首 強調沒有做錯

頭條要聞

國民黨主席朱立倫和謝龍介赴警分局自首 強調沒有做錯

體育要聞

我們來自北極圈,我們有全球最恐怖的主場!

娛樂要聞

24歲女星夏依丹離世!死因讓人心碎

財經要聞

事關離境退稅 商務部等六部門最新發聲

汽車要聞

蔚來李斌的"十年磨一劍" 從看得見 到看不見

態度原創

藝術
旅游
親子
時尚
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

4.30國際不打小孩日,讓我們在孩子的世界里被治愈!

日本凍齡穿搭底層邏輯,4大搭配技巧,掌握美到老的優雅密碼

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 固始县| 霞浦县| 石渠县| 耒阳市| 贡觉县| 甘德县| 海林市| 黄梅县| 景洪市| 惠水县| 云龙县| 泸西县| 大理市| 乐昌市| 来凤县| 汉寿县| 谷城县| 灵武市| 丽江市| 治多县| 长沙市| 交城县| 太仆寺旗| 昌图县| 乌审旗| 宜兰市| 福贡县| 罗源县| 长子县| 阿尔山市| 邹城市| 西平县| 大洼县| 岳池县| 颍上县| 巍山| 嘉善县| 丰台区| 宜君县| 陵川县| 开封县|