數學大神陶哲軒(Terence Tao)剛發了一篇他使用o 3 mini感受帖子,給大家劃個重點
大神也好奇AI搞科研怎么樣?
陶哲軒發帖說,最近他在研究圖論中的一個“專家級”定理——“三角形移除引理”。這定理有點復雜,咱們普通人聽著可能頭大。 為了搞清楚這個定理的證明,現有三種方法:
1.傳統手擼:筆和紙,自己硬啃
2.傳統搜索:用搜索引擎,網上沖浪找答案
3.AI 助手:直接問大語言模型(LLM)
陶哲軒直接選擇了第三種——求助大語言模型,他用的是o3-mini
模型。 結果讓他有點驚喜:幾秒鐘,模型就給出了一個非常靠譜的答案,完美解釋了這個定理的推導過程!他還貼出了聊天記錄鏈接,感興趣的可以直接去看:
https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d
大神親自測試,這波必須點贊! 陶哲軒也表示,這次體驗讓他覺得,對于快速獲取專業領域內的標準論證細節,LLM 真是個好幫手。 之后自己再去驗證一下模型的答案是否正確就行
但是!AI也不是萬能的
嘗到甜頭的陶哲軒,又追問了模型另一個“三角形移除引理”的經典推論——魯薩-塞邁雷迪 (Ruzsa-Szemeredi) (6,3) 定理。 這回,模型的表現就沒那么完美了
?初次嘗試:模型給出的策略方向是對的——用超圖對圖形編碼。 但是,關鍵細節完全缺失
?深入追問:陶哲軒不斷引導,模型依然沒能抓住要點,比如如何用 (6,3) 條件來限制編碼圖中不需要的三角形,以及如何先簡化到線性超圖這種核心思路。
最后,陶哲軒還是通過傳統搜索先找到了答案,然后用非常明確的提示引導模型,才讓模型最終勉強給出了一個基本正確的推導證明。 大神都得先自己搞懂,才能“教”會AI,這多少有點無奈
陶哲軒的總結和反思
兩次測試下來,陶哲軒的感受是:
對于研究級別的數學任務,目前的模型表現波動很大。 有時 “在用戶給出粗略指導下就能真正有用”, 有時卻 “需要用戶給出大量詳細指導才能發揮作用”。 更強大的模型,可能前一種情況會更多一些。
他認為, 對于那些非常標準的問題,比如維基百科或 StackOverflow 上能輕松找到答案的,LLM 表現出色。 但問題越偏門、越冷門,模型的成功率就逐漸下降。 想要模型給出有用的結果,就需要更多的用戶引導,或者更高的算力支持
這是 Terence Tao 的推文全文翻譯:
陶哲軒
@tao@mathstodon.xyz
加州大學洛杉磯分校 #數學 教授
今天我嘗試重構圖論中一個(對專家而言)標準的結果的證明,即魯茲薩-塞邁雷迪“三角形移除引理”意味著,由 n 個導出匹配組成的 n 個頂點的圖只包含 o(n^2) 條邊。我當時的主要三個選項是:嘗試用筆和紙進行推導;進行傳統的網絡搜索;或者詢問大型語言模型。 在這種情況下,我選擇了第三個選項(使用 o3-mini),并在幾秒鐘內收到了一個非常好的答案,正確地解釋了這個推論:https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d
這滿足了我眼前的需求 - 并指出了 LLM 的一個良好用例,即快速提供自己領域內一些標準論證的細節,然后可以驗證其正確性 - 但后來我感到好奇,并要求模型也解釋三角形移除引理的另一個標準推論,即魯茲薩-塞邁雷迪關于具有特定禁用配置的 3-均勻超圖大小的 (6,3) 定理。 在這里,結果明顯好壞參半(見上方鏈接)。 最初的答案有正確的總體策略 - 使用超圖來編碼圖 - 但缺乏所有關鍵細節。 當我進一步追問時,它沒有提及兩個最重要的想法 - 使用 (6,3) 條件來限制編碼圖中不需要的三角形,或最初簡化為線性超圖 - 但通過額外的提示,它能夠重構這些組成部分,并最終提供了該推導的基本上正確的證明。 但我不得不通過相當明確的提示來引導它,我只能這樣做,因為我事先通過傳統的網絡搜索查找了證明。(1/2)
我的總體感覺是,至少對于研究級別的數學任務而言,目前的模型在“僅需用戶提供廣泛指導就真正有用”和“在用戶提供大量詳細指導后才有用”之間波動,其中,最強大的模型在前者類別中擁有更高比例的答案。 對于那些非常標準的問題,它們似乎特別有效,以至于它們的答案基本上可以在諸如維基百科或 StackOverflow 等現有資源中找到;但是,隨著人們轉向越來越晦澀的問題類型,成功率會逐漸降低(盡管是以較為漸進的方式),并且需要更多的用戶指導(或更高的計算資源)才能使 LLM 的輸出達到可用的形式。(2/2)
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.