99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

陶哲軒使用o3 mini一手測評來了:好壞參半

0
分享至


數學大神陶哲軒(Terence Tao)剛發了一篇他使用o 3 mini感受帖子,給大家劃個重點


大神也好奇AI搞科研怎么樣?

陶哲軒發帖說,最近他在研究圖論中的一個“專家級”定理——“三角形移除引理”。這定理有點復雜,咱們普通人聽著可能頭大。 為了搞清楚這個定理的證明,現有三種方法:

  1. 1.傳統手擼:筆和紙,自己硬啃

  2. 2.傳統搜索:用搜索引擎,網上沖浪找答案

  3. 3.AI 助手:直接問大語言模型(LLM)

陶哲軒直接選擇了第三種——求助大語言模型,他用的是o3-mini模型。 結果讓他有點驚喜:幾秒鐘,模型就給出了一個非常靠譜的答案,完美解釋了這個定理的推導過程!他還貼出了聊天記錄鏈接,感興趣的可以直接去看:

https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d

大神親自測試,這波必須點贊! 陶哲軒也表示,這次體驗讓他覺得,對于快速獲取專業領域內的標準論證細節,LLM 真是個好幫手。 之后自己再去驗證一下模型的答案是否正確就行

但是!AI也不是萬能的

嘗到甜頭的陶哲軒,又追問了模型另一個“三角形移除引理”的經典推論——魯薩-塞邁雷迪 (Ruzsa-Szemeredi) (6,3) 定理。 這回,模型的表現就沒那么完美了

  • ?初次嘗試:模型給出的策略方向是對的——用超圖對圖形編碼。 但是,關鍵細節完全缺失

  • ?深入追問:陶哲軒不斷引導,模型依然沒能抓住要點,比如如何用 (6,3) 條件來限制編碼圖中不需要的三角形,以及如何先簡化到線性超圖這種核心思路。

最后,陶哲軒還是通過傳統搜索先找到了答案,然后用非常明確的提示引導模型,才讓模型最終勉強給出了一個基本正確的推導證明。 大神都得先自己搞懂,才能“教”會AI,這多少有點無奈

陶哲軒的總結和反思

兩次測試下來,陶哲軒的感受是:

對于研究級別的數學任務,目前的模型表現波動很大。 有時 “在用戶給出粗略指導下就能真正有用”, 有時卻 “需要用戶給出大量詳細指導才能發揮作用”。 更強大的模型,可能前一種情況會更多一些。

他認為, 對于那些非常標準的問題,比如維基百科或 StackOverflow 上能輕松找到答案的,LLM 表現出色。 但問題越偏門、越冷門,模型的成功率就逐漸下降。 想要模型給出有用的結果,就需要更多的用戶引導,或者更高的算力支持

這是 Terence Tao 的推文全文翻譯:

陶哲軒
@tao@mathstodon.xyz
加州大學洛杉磯分校 #數學 教授

今天我嘗試重構圖論中一個(對專家而言)標準的結果的證明,即魯茲薩-塞邁雷迪“三角形移除引理”意味著,由 n 個導出匹配組成的 n 個頂點的圖只包含 o(n^2) 條邊。我當時的主要三個選項是:嘗試用筆和紙進行推導;進行傳統的網絡搜索;或者詢問大型語言模型。 在這種情況下,我選擇了第三個選項(使用 o3-mini),并在幾秒鐘內收到了一個非常好的答案,正確地解釋了這個推論:https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d

這滿足了我眼前的需求 - 并指出了 LLM 的一個良好用例,即快速提供自己領域內一些標準論證的細節,然后可以驗證其正確性 - 但后來我感到好奇,并要求模型也解釋三角形移除引理的另一個標準推論,即魯茲薩-塞邁雷迪關于具有特定禁用配置的 3-均勻超圖大小的 (6,3) 定理。 在這里,結果明顯好壞參半(見上方鏈接)。 最初的答案有正確的總體策略 - 使用超圖來編碼圖 - 但缺乏所有關鍵細節。 當我進一步追問時,它沒有提及兩個最重要的想法 - 使用 (6,3) 條件來限制編碼圖中不需要的三角形,或最初簡化為線性超圖 - 但通過額外的提示,它能夠重構這些組成部分,并最終提供了該推導的基本上正確的證明。 但我不得不通過相當明確的提示來引導它,我只能這樣做,因為我事先通過傳統的網絡搜索查找了證明。(1/2)

我的總體感覺是,至少對于研究級別的數學任務而言,目前的模型在“僅需用戶提供廣泛指導就真正有用”和“在用戶提供大量詳細指導后才有用”之間波動,其中,最強大的模型在前者類別中擁有更高比例的答案。 對于那些非常標準的問題,它們似乎特別有效,以至于它們的答案基本上可以在諸如維基百科或 StackOverflow 等現有資源中找到;但是,隨著人們轉向越來越晦澀的問題類型,成功率會逐漸降低(盡管是以較為漸進的方式),并且需要更多的用戶指導(或更高的計算資源)才能使 LLM 的輸出達到可用的形式。(2/2)

?星標AI寒武紀,好內容不錯過?

用你的在看告訴我~

求贊

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
最毒的5種隔夜菜,再也別吃了!剩菜要這樣處理才對,別不懂!

最毒的5種隔夜菜,再也別吃了!剩菜要這樣處理才對,別不懂!

富貴說
2025-04-26 07:08:07
如果你有450萬現金,基本上就算財務自由了。

如果你有450萬現金,基本上就算財務自由了。

流蘇晚晴
2025-04-14 19:12:20
離婚兩年后,再看董子健和孫怡的現狀,兩人的差距已經一目了然

離婚兩年后,再看董子健和孫怡的現狀,兩人的差距已經一目了然

小米亞的故事
2025-04-28 14:38:43
美的、格力隔空打架,財報都稱自己去年是“家用空調第一名”

美的、格力隔空打架,財報都稱自己去年是“家用空調第一名”

紅星資本局
2025-04-28 13:57:02
新疆牧民救下受傷雪豹,2年后放牧遭野狼攻擊,雪豹趕來相救

新疆牧民救下受傷雪豹,2年后放牧遭野狼攻擊,雪豹趕來相救

作家澤昊
2025-04-27 22:03:36
香港電影金像獎悼念大S,真應了她生前所說:我死后世界溫柔以待

香港電影金像獎悼念大S,真應了她生前所說:我死后世界溫柔以待

野山歷史
2025-04-28 10:34:19
閑魚變“黃魚”,表面賣女生自用自行車,實則做著見不得人的交易

閑魚變“黃魚”,表面賣女生自用自行車,實則做著見不得人的交易

西齋青簡
2024-05-07 11:55:02
最高法:堅決防止把經濟糾紛當作犯罪處理

最高法:堅決防止把經濟糾紛當作犯罪處理

財聯社
2025-04-27 15:05:31
巴鐵開始搖人,看到莫迪挺不住了,俄高層找到中國,有要事相商

巴鐵開始搖人,看到莫迪挺不住了,俄高層找到中國,有要事相商

科技虎虎
2025-04-28 22:32:56
“91大神”獲刑,偷拍300多名女性視頻,以為只是道德問題

“91大神”獲刑,偷拍300多名女性視頻,以為只是道德問題

第四思維
2025-04-27 16:30:45
除了中國,全世界沒有哪個國家能真正明白大豆的戰略價值。

除了中國,全世界沒有哪個國家能真正明白大豆的戰略價值。

流蘇晚晴
2025-04-25 19:27:34
特朗普公開承認錯誤,不是中國的錯,是我的錯,聲稱會出現轉機。

特朗普公開承認錯誤,不是中國的錯,是我的錯,聲稱會出現轉機。

八斗小先生
2025-04-28 17:44:29
眉目如畫,閉月羞花的美女

眉目如畫,閉月羞花的美女

陳意小可愛
2025-04-26 10:42:44
俄媒:一旦戰爭爆發中國將被圍攻,對中國而言,最危險的不只戰爭

俄媒:一旦戰爭爆發中國將被圍攻,對中國而言,最危險的不只戰爭

大國紀錄
2025-03-07 11:15:20
一條瑜伽褲,改變了我對穿衣的認知

一條瑜伽褲,改變了我對穿衣的認知

健身廚屋
2025-04-24 09:56:51
深圳:對年營收達到一定規模的電商平臺主體按營收增長額0.5%給予獎勵 每家企業最高獎勵300萬元

深圳:對年營收達到一定規模的電商平臺主體按營收增長額0.5%給予獎勵 每家企業最高獎勵300萬元

財聯社
2025-04-28 13:34:50
為什么單親媽媽大部分都很窮?網友吐槽式回答,真實又扎心

為什么單親媽媽大部分都很窮?網友吐槽式回答,真實又扎心

墻頭草
2025-04-28 09:42:55
發表辱華言論、移居美國,“公知女神”柴靜,如今下場咎由自取

發表辱華言論、移居美國,“公知女神”柴靜,如今下場咎由自取

附允歷史觀
2024-08-22 11:15:44
男生18cm有啥壞處?妹子現場演示長短對比太生動,看完動圖秒懂哈哈

男生18cm有啥壞處?妹子現場演示長短對比太生動,看完動圖秒懂哈哈

經典段子
2025-04-14 23:34:48
你沒被提拔,領導說“你民主測評低”,你別說“以后多團結同事”

你沒被提拔,領導說“你民主測評低”,你別說“以后多團結同事”

職場火鍋
2025-04-10 07:13:39
2025-04-28 23:52:49
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
651文章數 259關注度
往期回顧 全部

科技要聞

傳騰訊阿里從字節搶購算力資源 字節否認

頭條要聞

中國女子在馬爾代夫遭酒店管家性侵 當事人2年后發聲

頭條要聞

中國女子在馬爾代夫遭酒店管家性侵 當事人2年后發聲

體育要聞

“我們欠球迷一個冠軍慶典,現在可以狂歡了”

娛樂要聞

黃渤青島做東請客 桌上全人情世故

財經要聞

外賣平臺陷入內卷,傷害的是誰?

汽車要聞

東風日產,重新起跑

態度原創

親子
旅游
藝術
房產
時尚

親子要聞

推拿孩子的大拇指和食指,助長高

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

灣區最美戶外教育社區!這座世界莊園自然能量場,為孩子解鎖人生新高度

五一,就躲在家里看書吧!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 堆龙德庆县| 塔城市| 屯留县| 大庆市| 洛扎县| 辉南县| 林周县| 邵阳市| 突泉县| 长兴县| 太湖县| 嘉善县| 汉沽区| 大关县| 呈贡县| 清远市| 瑞昌市| 讷河市| 通化县| 宁南县| 防城港市| 信阳市| 高平市| 北海市| 铅山县| 磐石市| 英超| 雷波县| 调兵山市| 台东市| 仪征市| 陆丰市| 昆山市| 桑日县| 扶余县| 临邑县| 乐平市| 保定市| 衡阳县| 连江县| 甘肃省|