3月18日港股高開高走,恒生科技指數尤為搶眼,在百度的帶領下最終漲超3%。而百度的股價能夠大漲主要是因為2天前發布了兩款新的人工智能大模型。周一晚上是美股本周第一個交易日,受利好影響百度美股“狂飆”9%,今日港股大漲也就不足為奇了。
這次百度一下子推出兩款大模型,分別是基座大模型“文心 4.5”和首款推理模型“文心 X1”,后者對標DeepSeek - R1。更為關鍵的是這兩款大模型均采取免費策略。
新的大模型是否配得上暴漲的美股和港股股價?帶著這些疑問,我第一時間對推理模型“文心 X1”進行了實測,以下便是測試結果及我的親身感受。
我向“文心 X1”提出的第一個問題曾經讓不少大模型“折戟沉沙”:3.9和3.11哪個數字大?
這看似是一個簡單到但凡上過小學的人都能迅速給出答案的問題,但不少大模型在初期卻答錯了。“文心 X1”沒有讓人失望,它通過嚴謹的邏輯推演得出了正確答案。
值得一提的是,作為推理模型,“文心 X1”類似deepseek,不僅給出答案,還詳細展示了思考和行動過程。
第二道題是一道純邏輯問題:小王、小劉、小丁、小李分別是教師、軍人、工人中的一種,已知小王是教師,小丁不是工人,且只有小劉和小李的職業相同,請問他們的職業各是什么?
這道題的難度相較于上一題明顯增大,邏輯推理能力稍弱的人可能無法答對。而“文心 X1”表現出色,不僅給出了正確答案,而且整個思考、推理過程也相當嚴謹。
它在解題過程中考慮了不同的情形,最后還根據答案反向驗證,這種方式與人類思考、做事的方式極為相似。畢竟,我們在做完一道題后,也會把答案代入條件進行驗算,以判斷答案是否正確。對于人工智能而言,模仿人類思考、做事的方式無疑是一個重要的發展方向。
最后一道測試題在我看來是最難的,涉及高中物理學知識的同時我特地在題目里下了個套,看看“文心 X1”會否入套。題目是:假設汽車的起始速度是30米/秒,加速度為50米/秒,請問10秒后汽車的速度是多少?
要想答對這道題,得先掌握一些物理學知識。勻速直線運動求速度的公式是:v = v0 + at,其中v0是初速度,a是加速度,t是時間。
“文心 X1”的知識儲備是夠用的,得出了530米/秒的答案。然而,這道題的解答并沒有結束,“文心 X1”發現了題干中隱藏的套路,不知道大家有沒有發現問題。
要知道,530米/秒相當于1908公里/小時,這個速度是戰斗機的兩倍,現實中根本不存在能跑那么快的汽車。因此,530米/秒的答案從數學角度來說是沒錯的,但不符合物理常識。
“文心 X1”在思考中敏銳地發現了這個“坑”,輸出結果時,它先按照題干給出數學上正確的答案,然后貼心地提示我檢查加速度的單位是否合理,還給出了可能的答案。
我對“文心 X1”在這道題上的回答十分滿意,這表明大模型具備思考和判斷能力。
至于一些寫文案的問題不再一一贅述了,“文心 X1”的表現和主流大模型差別不大,能夠給出較為詳細的答案。其實這種類型的問題更需要用戶具備一定的提問能力,給出的關鍵詞要精準到位,才能引導大模型給出令人滿意的答案。
總體來說“文心 X1”模型的體驗相當不錯,在我看來推理能力屬于頂尖模型之列,百度這次沒有讓人失望。
自從deepseek開源后,人工智能領域的競爭進入了一個全新的階段。在這場激烈的競爭中,誰能殺出重圍登上頂峰還尚未可知。此前被吐槽“起了個大早,趕了個晚集”的百度,用“文心 X1”模型證明了自己依然在人工智能的牌桌上,并且有著強大的競爭力。
未來,百度能否憑借免費和開源的策略,以及“文心 X1”等優秀模型在人工智能領域取得更大的突破,值得我們拭目以待。
以上純屬個人觀點,歡迎關注、點贊,您的支持是對原創最好的鼓勵!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.