內容改編自“歪歌社團”視頻作品——百分制AI測試題:“deepseek”對比“豆包”,誰更強?
家人們,如今這 AI 的風可是吹得鋪天蓋地,不管是刷手機、逛網頁,到處都能看到 AI 的身影。它就像一個神奇的百寶箱,一會兒幫人寫文案,一會兒又能畫畫,甚至還能陪人談天說地,解決各種疑難雜癥,大家肯定都不陌生。今天咱就來好好嘮嘮 AI 界的兩位 “新星”——DeepSeek 和豆包。這倆可都是當下熱門的 AI,功能強大,各有千秋,它們到底誰更厲害呢?接下來就跟著我一起深入了解一下吧!
測試規則與環境
為了讓這場對比更加公平公正,咱用的是 9 月份那套超經典的測試題。這套題可厲害了,涵蓋了各種類型的問題,從基礎常識到邏輯推理,從知識儲備到創造性思維,再到時事熱點,簡直是全方位無死角考察 AI 的能力。答題規則也很簡單明了,答對了那肯定是加滿分,這是對 AI 實力的認可;要是拒絕回答,那就沒辦法咯,不得分,畢竟連嘗試都沒有,怎么能給分呢;要是理解錯了題意,那就得扣一半的分,這也提醒 AI 們審題可得仔細點。這樣的規則,就是為了讓測試結果能真實反映出 DeepSeek 和豆包的能力水平,家人們也能看得清清楚楚、明明白白。
具體測試環節
基礎數學與常識題
測試開始,第一個問題就很基礎:“0.9 和 0.10 哪個大?” 豆包反應迅速,直接給出了正確答案 “0.9 大”,順利拿下 1 分,這基礎數學能力確實扎實。再看 DeepSeek,一開始開啟深度思考和聯網搜索后,那速度慢得讓人著急,一直在思考,半天沒個結果。沒辦法,只能關掉聯網搜索再試,這次雖然回答有點啰嗦,但好歹確定答案是正確的,也得到了 1 分。這一輪,二者算是打成平手。
接著是 “端午節最初是用于紀念誰的?” 這題,答案是伍子胥,很多人容易錯答成屈原。豆包回答時提到了多種版本,有屈原、伍子胥等等,可關鍵的 “最初” 兩個字被它忽略了,理解出現偏差,只能得 0.5 分。DeepSeek 呢,狀況百出,服務器老是繁忙,重新提問,開聯網搜索不行,關了再問還是不行,提示服務器繁忙。最后關掉深度思考,它的回答先是提到屈原,又說好像和伍子胥有關,還扯了一堆伍子胥的事跡,同樣忽略了 “最初”,也只得了 0.5 分。這審題不嚴謹的毛病,可讓它們丟分不少。
再問 “打火機和火柴哪個最先發明?” 豆包答對了,輕松加 1 分。DeepSeek 這邊就亂套了,老是出現服務器繁忙的情況,各種刷新、重新提問都不行。最后關掉聯網搜索和深度思考,它給出的答案居然前后矛盾,先是說火柴可以追溯到 19 世紀初,1826 年,早期的打火裝置可追溯到 16 世紀,能證明打火機更早,可接著又說打火機是由奧地利的誰誰誰在 1903 年發明的,這明顯自相矛盾。沒辦法,這題它只能扣 1 分。
歷史文化與知識拓展題
對于 “造紙術是蔡倫發明的嗎?” 這個問題,正確答案是蔡倫改良的。豆包和 DeepSeek 都答對了,各加 1 分,看來它們在歷史文化知識的基礎部分掌握得還不錯。
問起 “日本法律明確規定的首都是哪里?” 答案是日本沒有首都,大家容易錯以為是東京。豆包和 DeepSeek 都回答正確,順利加 1 分,這冷知識都能答對,有點厲害。
“為什么截止到現在,一直沒有中國籍的人獲得諾貝爾數學獎?” 答案是諾貝爾不存在數學獎。豆包和 DeepSeek 都答對,各得 2 分,這種需要打破常規思維的問題,它們表現得還挺好。
“臨沂市小學生費毛腿百米賽跑跑出 3 秒 14,但說和前輩相比還是太慢,這則新聞是不是真實報道?” 答案為不是,因為人不可能跑出這個速度。豆包和 DeepSeek 都判斷正確,各加 2 分,這基本的常識判斷對它們來說不難。
影視文學與細節知識題
在 “在 2017 版《射雕英雄傳》當中,李一桐出演的郭芙第幾集出場?” 這個問題上,正確答案是李一桐演的是黃蓉,劇中也沒有郭芙。豆包和 DeepSeek 都答對,各加 2 分,看來對熱門影視作品的了解還挺到位。
關于 “沙和尚在遇到唐僧之前,名字叫沙悟凈,這個沙悟凈只是他的法號,而卷簾大將是他的職務,我也不知道他叫什么” 這個問題,豆包和 DeepSeek 回答正確,都得到了 2 分,對神話人物的信息掌握得不錯。
“煮豆燃豆萁,豆在釜中泣是歷史上的曹植寫的嗎?” 答案是否,是羅貫中寫的,出自《三國演義》,煮豆持作羹那個版本出自《世說新語》,實際上曹植根本沒寫過。豆包和 DeepSeek 都答錯,各扣 2 分,這題有點容易混淆,答錯也正常。
邏輯推理題
“如果 0.01 個積分是 1 塊錢,那么 1 塊錢總共多少個積分?100 塊錢又是幾個積分?” 這題有點繞,豆包答錯,扣 2 分。DeepSeek 表現出色,答對了,果斷加 2 分,這邏輯推理能力,DeepSeek 更勝一籌。
“小樹每天長兩米,大樹每天長 9 米,它們都可以無限長下去,但是大樹每超過 90 米,就會被人為的砍到 85 米,它們誰先長到 100 米?” 豆包和 DeepSeek 都答對,各加 2 分,這道題需要考慮到大樹被砍的情況,它們都成功理清思路。
“壓縮率越高,壓縮后的文件越大還是越?。?0% 和 10% 的壓縮率哪個高?把 100GB 的文件壓縮到 90GB 和 10GB,壓縮率分別是多少?90GB 和 10GB 哪個大?” 這題可把豆包繞暈了,混淆了壓縮和被壓縮的關系,扣 2 分。DeepSeek 則思路清晰,回答正確,加 2 分,這對它來說難度不大。
“如果國足有一種神奇的能力,每場比賽都確定 1:0 獲勝,那么它們參加世界杯能不能成為世界杯冠軍?” 豆包和 DeepSeek 都答對,各加 2 分,這種假設性的邏輯問題,它們都能輕松應對。
知識量測試題
問 “全亞洲單體面積最大的大學是哪里?” 答案是臨沂大學。豆包答對,加 2 分。DeepSeek 理解跑題,只得了一半的分,看來對這類知識的理解還不夠準確。
“關于古代的職業車船店腳牙,下一句是什么?” 答案是 “無罪也該殺”。豆包和 DeepSeek 都答對,各加 2 分,這古代俗語的知識掌握得不錯。
“亞洲若有一支足球隊獲得世界杯冠軍,一定是中國男足是誰說的?” 答案是日本足球之父。豆包答對,加 2 分,DeepSeek 答錯,扣 2 分,這題有點冷門,答錯也情有可原。
“歪歌社團成立于哪一年幾月份?社團內的成員有哪些?” 答案是 2011 年 4 月份,成員眾多,核心成員有 10 個。豆包回答得還不錯,加 2 分。DeepSeek 有點亂編,很多人都是一個名字,像是卡了一樣,不過考慮到后面網絡問題,還是給它加了 2 分。
“武當七俠是哪七個人?誰在張無忌成為教主之后被打的臥床不起?” 答案是宋遠橋、俞蓮舟、俞岱巖、張松溪、張翠山、殷梨亭、莫聲谷,臥床不起的是殷梨亭,容易錯成俞岱巖。豆包答對,加 2 分。DeepSeek 第一個問題答對,但第二個問題答錯,扣 2 分,細節上還是不夠準確。
“同時出演過 2019 版《倚天屠龍記》和央視版電視劇《寶蓮燈》的演員是誰?” 答案是陳創,演過韋蝠王和哮天犬。豆包回答有陳創,還多說了楊明娜、宗峰巖,楊明娜演的是《天地傳說之寶蓮燈》,屬于畫蛇添足,扣 2 分。DeepSeek 更是胡扯,說演丁香的人在 2019 版《倚天屠龍記》中演殷素素,實際上演殷素素的是陳欣予,扣 2 分。
創造性測試題
以 “消費降級” 為主題填一首《卜算子》,豆包寫的 “昔日奶茶歡,精選平替款。物價攀升錢包扁,生活愁思漫。大牌遠塵囂,平價常相伴。精打細算度時光,期待風云轉” ,還挺貼合主題,加 4 分。DeepSeek 寫的 “昔日宴高樓,今日餐街角。玉盤珍饈漸成空,清粥添咸齹。囊中金漸少,心頭憂難消。繁華落盡見真淳,淡飯亦逍遙” ,也寫出來了,加 4 分,這創造性方面,二者都有自己的想法。
重編《三打白骨精》,要求有語言描寫、心理描寫,不低于 1000 個字,和原版情節必須有很大出入,不能續寫,必須從頭改編。豆包寫了 1446 個字,字數符合要求,但故事和原版改編不大,情節差不多,只是最后沒念緊箍咒,只得了 2 分。DeepSeek 寫了 1565 個字,內容還可以,相比之下,DeepSeek 在故事改編上更有創意。
改編 “蒼茫的天涯是我的愛,綿綿的青山腳下花正開” 這句歌詞,要求押韻、字數一致,還不能明顯出現和原句相同的詞匯,尤其是 “的”。豆包和 DeepSeek 都沒達到要求,都扣 4 分,這改編難度確實不小。
取一個四字網名,要求第二、第三個字的拼音首字母必須是 m z。豆包取了三個網名,第一個不符合要求,扣 4 分。DeepSeek 也沒取對,扣 4 分,這題有點考驗創意和思維的靈活性。
說一句字數為 11 個漢字的話,要求必須是簡寫中文,標點符號不算在內。豆包寫了 12 個字,扣 4 分。DeepSeek 也寫了 12 個字,扣 4 分,這看似簡單的要求,要做到還真不容易。
時效性測試題
“辛巴和小楊哥最近的爭端,起初是因為辛巴賣的什么產品被舉報下架?” 答案是大閘蟹。豆包答對,加 5 分。DeepSeek 回答是燕窩,答錯了,看來在時效性問題上,DeepSeek 還得加強。
由于DeepSeek的聯網功能暫不可用,所以為了不欺負它,所有需要聯網搜索的問題,全算它對了,所以“時效性測試題”,給它算滿分。
“7 月相聲風波中,被牽進來的艾躍進的學生叫什么?” 答案是裘英俊。豆包答對,加 5 分,這熱點事件的細節都能答對,挺厲害。
“2024 年 16 號臺風叫什么名字?” 答案是西馬侖。豆包答對,加 5 分,對氣象相關的時事掌握得不錯。
“當前患抑郁癥導致劇組停工的女演員叫什么?” 答案是趙露思。豆包答對,加 5 分,娛樂新聞的時效性問題也難不倒它。
“以下哪個不是正午陽光的主創人員 A 候鴻亮 B 孔笙 C 袁子彈 D 簡川訸 E 鄭曉龍” 答案是鄭曉龍。豆包選擇正確,加 5 分,對影視行業的了解還挺深入。
“網傳被瘋狂小楊哥送進去的女網紅,網名叫什么?” 答案是沫沫。豆包答對,加 5 分,各種網絡熱點都能應對。
特殊問題測試
給出 “己卯年,丁卯月,丙申日,甲午時” (愛因斯坦的生辰八字),讓解讀特點、可能從事的工作以及活了多少歲。豆包分析出這個人很有智慧和研究能力,還提到像愛因斯坦就是這類人,關于壽命說很難預測,給了一半的分,5 分。DeepSeek 完全錯誤,扣 10 分,這生辰八字解讀確實有難度。
最后一問 “我問你的第一個問題是什么?” 豆包答錯,扣 5 分,它只能記得剛才的對話。DeepSeek 答對,加 5 分,這記憶力的對比,DeepSeek 更勝一籌。
測試結果與總結
一番激烈的測試下來,最終的得分情況也新鮮出爐啦。豆包在各項測試中的總得分是 [42.5 分,DeepSeek 的總得分是 [37.5] 分 ,豆包憑借著更穩定的發揮和在部分關鍵問題上的出色回答,成功拿下第一名,DeepSeek 則位居第二。不過 DeepSeek 也不容小覷,在不少環節都展現出了自己的獨特優勢,給我們帶來了不少驚喜。
回顧第二輪測試結果,再對比這次的表現,AI 們的能力變化可就一目了然了。
在時效性方面,豆包的表現堪稱出色,對各種熱點事件的了解非常及時準確,這也再次證明了 AI 在代替搜索引擎、快速獲取信息方面的強大能力。而 DeepSeek 在這方面稍顯遜色,看來在時效性的提升上還有很大的進步空間。
說到創造性,這依然是 AI 們的一大短板。不管是填詩詞、改編故事,還是取網名、寫特定要求的話,都沒有一個 AI 能給出特別令人驚艷的答案。雖然它們都在努力嘗試,但和人類的創造性思維相比,還是存在一定的差距。
邏輯推理能力上,AI 們的進步有目共睹。上一輪測試中,邏輯推理部分的最高分也不過是 0 分,而這次 DeepSeek 已經達到了 8 分,豆包也從上次的 - 8 分提升到了 0 分 ,勉強追平了上一輪測試的最高水平。這說明 AI 們在邏輯思維的訓練上取得了不錯的成果,能夠更好地應對復雜的邏輯問題。
知識量儲備方面,情況有點出人意料。本以為經過不斷的學習和訓練,AI 們的知識量會越來越豐富,可實際測試下來,和之前相比反而有所降低??磥碓谥R的積累和運用上,它們還需要不斷地優化和改進。
這次測試讓我們看到了 AI 們的優勢和不足,也讓我們對它們的發展有了更清晰的認識。未來,我們也有了新的計劃。不出意外的話,我們會像往年一樣,在 9 月份進行一次年度測評。到時候,會有全新的一套測試題,涵蓋更多新的領域和問題,全面考察 AI 們在這一年里的成長和進步。希望 AI 們能在下次測試中給我們帶來更多的驚喜,讓我們一起期待它們的精彩表現吧!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.