AI好好用報道
編輯:楊文
Kimi國慶「憋」大招,「憋」出個探索版。
前不久,市場上就有傳言稱,月之暗面國慶「憋大招」。
至于這個「大招」具體是啥,眾說紛紜:
有人說和多模態有關,還有人說是關于深度推理的。
不過,就在上周五,月之暗面高調宣布,上線 Kimi 探索版。
消息一出,不少體驗者紛紛涌入官網,「Kimi 崩了」也一度登上熱搜。
那么,這個探索版厲害在哪兒?它與 Kimi 普通版有啥區別?
這么說吧,Kimi 探索版的搜索量是普通版的 10 倍,一次搜索即可精讀超過 500 個頁面。
而且,它還能模擬人類的推理思考過程,多級分解復雜問題,并進行深度搜索,即時反思改進結果。
這似乎和 OpenAI 的 o1 有著異曲同工之妙。
Kimi 官方也很自信,「如果 Kimi 搜不到的信息,那大概率用戶也很難自己通過傳統搜索引擎找到」。
接下來,我們就實地測評一下,看看 10 倍搜索量、一次搜索可精讀超 500 個頁面的 Kimi 探索版,到底是搞噱頭還是真實力?
Kimi 官網鏈接:https://kimi.moonshot.cn/
1. 中國票房過四十億的電影都講了什么故事?
我們先通過這個娛樂性的問題,一窺 Kimi 探索版的「腦回路」。
在答題之前,它會像分析師一樣,預先規劃解決問題的整體策略,將復雜問題分解為層次化的子問題,然后分步來執行。
具體來說,它先全網搜索中國票房過 40 億的電影,然后查找這些電影的故事情節介紹。
在搜索過程中,它會把復雜提問轉換成多個匹配的搜索關鍵詞,并基于前一步的搜索結果來實時生成下一步的搜索關鍵詞。
此外,它還能即時反思搜索結果,在發現第一次回答中的情節簡介存在信息缺失時,會主動補充更多內容。
我們又讓它來總結上榜的電影具體票房,其回答與搜索引擎上的結果一致。
那么,Kimi 普通版的表現如何呢?
其工作流程是先理解問題,然后通過較為粗略的關鍵詞搜索網頁。
從網頁閱讀數量來看,普通版僅閱讀了 25 個網頁,而探索版則是 40 個。
雖然普通版整體上回答沒毛病,但是對于影片故事的介紹過于簡單,也無法反思搜索結果。
2. 請幫我總結一下特斯拉發布會
前幾天的特斯拉發布會算是科技圈的大新聞了。
我們就讓它總結一下特斯拉發布會的情況。
它閱讀了 11 個網頁,并在界面右側顯示所有的搜索結果,從中提取出四大亮點,分別是 Robotaxi、Robovan、Optimus 機器人和 FSD 自動駕駛,還分條縷析地介紹了它們的功能、設計、成本等。
我們進行了一一比對,回答全部正確,沒有出現滿嘴跑火車的現象。
我們繼續追問,特斯拉發布了無人駕駛出租車,為啥股票會跌?
Kimi 探索版不僅搜索了中文網站,還使用英文關鍵詞,網羅了 CBS、CNN 等外文媒體報道。
如果我們點擊它回答中的小引號,界面右側則會顯示出引用的原文信息,這極大地降低了幻覺發生的可能性。
3. 甄嬛的生日和薛寶釵的生日相差幾天?
我們再來問個無厘頭的問題。
一直以來,大模型都是重度偏科者,寫小作文嘎嘎好使,但一到數學題就抓瞎 ——
9.9 和 9.11 誰大分不清,strawberry 幾個 r 搞不明白。
不過,計算甄嬛和薛寶釵這倆八桿子打不著的影視人物的生日,Kimi 探索版有一套自己的解題思路。
在答題之前,Kimi 探索版先是全網搜索甄嬛和薛寶釵的生日分別是哪天,并在頁面右側顯示所有的搜索結果。
然后來到重頭戲,計算二者生日差值。
它先算出從正月二十一到四月十七,每個月有幾天,然后分別算出總天數,全部相加即可。
不過,它的回答還是有瑕疵,因為農歷月份長度以朔望月為準,正月的天數并不固定,因此最終的計算結果仍有偏差。
4.Elon Musk 的生日和 Sam AItman 的生日相差幾天?詳細介紹計算過程。
農歷的計算方法過于復雜,我們也搞不清楚,因此,就讓 Kimi 探索版再計算一下馬斯克和奧特曼的生日差。
我們專門用日期計算器檢驗了一下,Kimi 探索版回答正確。
5. 奧利弗在星期五摘了 44 個獼猴桃。然后在星期六摘了 58 個獼猴桃。星期天,他摘的獼猴桃數量是星期五的兩倍,但其中 5 個比平均大小要小。奧利弗有多少個獼猴桃?
前天,機器之心發布了一篇題為《》的文章。
我們就拿文中的數學題來測一下 Kimi 探索版。
先來個正常的:奧利弗在星期五摘了 44 個獼猴桃。然后在星期六摘了 58 個獼猴桃。星期天,他摘的獼猴桃數量是星期五的兩倍,奧利弗有多少個獼猴桃?
Kimi 探索版先把思路梳理得清清楚楚,然后每一步的執行都相當準確。
我們又在這道題目中,加了一句廢話「但其中 5 個比平均大小要小」,OpenAI 的 o1 就翻了車。
但是,Kimi 探索版竟然沒有被誤導,得出了正確答案。
目前,Kimi 探索版已覆蓋全量用戶。大家也抓緊去薅一波吧~
工具鏈接——
Kimi官網鏈接:https://kimi.moonshot.cn/
以后我們會帶來更多好玩的AI評測,也歡迎大家進群交流。
? THE END
轉載請聯系本公眾號獲得授權
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.