99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

以圖靈機為師:通過微調訓練讓大語言模型懂執行計算過程

0
分享至

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文來自南京大學計算機學院軟件研究所,聚焦于開放環境下的智能軟件新技術研究,定位國際學術前沿,面向國家關鍵需求,承擔了一系列國家科技部和基金委重大/重點科研項目。團隊擁有包括中科院院士等多名國家級人才,重點關注軟件和智能方向,研究成果發表于NeurIPS/ICLR/SOSP/ATC/EuroSys/OOPSLA/PLDI/ICSE/FSE等國際頂級會議,其中多篇文章獲得相應會議的最佳論文獎。

大型語言模型 (LLM) 在各種自然語言處理和推理任務中表現出卓越的能力,某些應用場景甚至超越了人類的表現。然而,這類模型在最基礎的算術問題的表現上卻不盡如人意。當遇到算術問題時,LLM 通常依賴記住特定的表達式及其對應結果的方式輸出算術問題的結果。通過簡單的實驗發現,LLM 只在語言層面表達了對算術運算的邏輯理解,但并沒有運用計算邏輯解決算術問題,這對 LLM 在相關領域中的應用造成了重大障礙,同時影響了其推廣到新場景的能力。

為了解決這個問題,來自南京大學的研究者提出了一種面向 LLM 的可組裝算術執行框架 (CAEF),使 LLM 能夠通過模仿圖靈機的方式來執行算術,從而理解計算邏輯。此外,CAEF 具有高度的可擴展性,允許組合已經學習到的運算符,以降低復雜運算符的學習難度。評估表明,LlaMA 3.1-8B 模型配合 CAEF 可在 7 種經典數學算術運算的測試中實現了近乎 100% 的準確率,且能夠支撐 100 位操作數的計算,而同等難度下, GPT-4o 在一些算術問題測試中無法正確給出計算結果。



  • 論文標題:Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines
  • 論文地址:https://arxiv.org/abs/2410.07896
  • 項目主頁:https://github.com/NJUDeepEngine/CAEF

該工作的貢獻主要有以下部分:

  • 可組裝的算術執行框架:提出了一種面向 LLM 的算術執行框架,使 LLM 能夠通過模仿圖靈機的方式解決算術問題、掌握運算符的計算邏輯。此外,CAEF 還支持組合多個已學習的運算符來實現更復雜的運算符。
  • Executor 和 Aligners:基于框架 CAEF,實現了七個常見運算符,分別構造了對應的 executor 和 aligner。其中,executor 負責以迭代方式分步執行計算,而 aligner 充當接口,完成 executor 的圖靈機風格表示和原始文本表示之間的雙向轉換。
  • 計算準確率:實驗結果表明,基于 CAEF 的 LLaMA 3.1-8B 在這七個運算符上的表現優于現有的 LLM,且能夠在操作數高達 100 位時實現幾乎 100% 的準確率。

相關工作

LLM 面對數學問題:當前研究主要集中如何在提高 LLM 面對數學任務的解題性能,通常引入外部工具來輔助 LLM 解決計算部分的內容。一類常見的外部工具為計算器,如 Schick et al. (2024) [1] ,該工作引入了一種自監督學習方法,模型在該方法中學習何時通過 API 訪問調用外部工具,類似的策略可以在 Gou et al. (2023) [2] 和 He-Yueya et al. (2023) [3] 中也能找到。另一類工具是編程語言解釋器,例如 Python,LLM 生成用于解決數學問題的代碼,再交由外部解釋器執行代碼以獲得最終的結果。一個典型的例子是 Lu et al. (2024) [4] ,它將 LLM 視為生成代碼并將其提交給外部 Python 執行程序以處理表格上下文中的數學問題。Wang et al. (2023) [5] 采用監督學習的方式讓 LLM 學習如何通過構建用于解決數學問題的程序,而 Zhou et al. (2023) [6] 提出了一種零樣本提示方法,以實現代碼驅動的自我驗證,從而提高數學解題性能。

LLM 面對算術問題:當前也有一些專注于 LLM 算術方面的研究。這些研究的共同目標是嘗試教會 LLM 計算邏輯,并通過分步計算的方法拆解計算過程,以提高計算準確性。在這些研究中,Nye et al. (2021) [7] 是一項早期且影響深遠的 方法。它在算術領域引入了類似思維鏈 (CoT) 的思想拆分計算過程,讓語言模型把計算的中間步驟輸出到一個被稱為 “scratchpad” 的緩沖區,顯著提高了 LLM 整數加法的性能。Hu et al. (2024) [8] 觀察到 transformers 傾向于使用 “基于記憶樣例的推理” 來處理算術問題,并提出了一種遵循規則的微調技術,指導模型逐步執行計算。Zhou et al. (2024) [9] 結合了四種技術(FIRE 位置編碼、隨機位置編碼、反向格式(R2L 格式)和索引提示)開發了一種新模型,該模型在兩個整數加法問題上實現了 2.5× 的長度泛化能力。

方法描述

該工作設計了一種可以使 LLM 學習模擬圖靈機執行的框架 CAEF。圖靈機中的轉移函數(transition function)描述了基于當前計算狀態和紙帶信息應該執行什么操作,其中天然蘊含了分步計算的邏輯。此外,組裝多個現有的圖靈機能夠實現更加復雜的計算邏輯,因此圖靈機為計算提供了一個很好的思路。然而,LLM 是基于文本的生成式模型,因此如何將圖靈機的工作模式有效地轉移到 LLM 上成為了一個難點。



圖 1. CAEF 框架圖示



圖 2. 45+67 執行過程

此外,由于計算的初始狀態和命令 < > 本身并不存在,CAEF 針對每個操作符需要設計兩個組件,一個是用于充當自然語言表示和圖靈機風格表示之間 “翻譯” 的 aligner,另一個是依照上述流程、負責實際執行計算的 executor,兩者以獨立的 LoRA adapter 的形式存在。其中 executor 可進一步細分為 basic executor 和 executor composer。針對像加法這樣相對容易的基礎運算符,可由單一的 LoRA adapter 實現功能,被稱為 basic executor;而像乘法這樣可以做進一步分解的復雜運算符,其 executor 本身不負責實際運算,它通過組織計算步驟、調用其他運算符的 executor 來實現功能,被稱為 executor composer。



Step 1 (aligner):

45+67=

Step 2 (executor):

state0: ADD, q0, [HEAD1] |5|4 [HEAD2] |7|6 [C] [OUTPUT]

command0: CMD: [C] 0, [HEAD1] RIGHT, [HEAD2] RIGHT, q1

Step 3 (executor):

state1: ADD, q1, [HEAD1]|5|4 [HEAD2]|7|6 [C] 0 [OUTPUT]

command1: CMD: [C] 1, [OUTPUT] 2, [OUTPUT] RIGHT, [HEAD1] RIGHT, [HEAD2] RIGHT, q1

Step 4 (executor):

state2: ADD, q1, |5 [HEAD1]|4 |7 [HEAD2]|6 [C] 1 |2 [OUTPUT]

command2: CMD: [C] 1, [OUTPUT] 1, [OUTPUT] RIGHT, [HEAD1] RIGHT, [HEAD2] RIGHT, q1

Step 5 (executor):

state3: ADD, q1, |5|4 [HEAD1] |7|6 [HEAD2] [C] 1 |2|1 [OUTPUT]

command3: CMD: [OUTPUT] 1, [OUTPUT], [C], qH

Step 6 (executor):

state4: ADD, qH, |5|4 [HEAD1] |7|6 [HEAD2] [C] 1 |2|1|1

command4: No command to execute. Halt state.

Step 7 (aligner):

45+67=112

Executor composer:以乘法為例,文章介紹 executor composer 的設計過程。乘法可以可以通過加法和小于兩個操作符實現。以形式 a×b=c 為例,一種簡單的乘法實現可以大致視為循環結構。在循環中使用兩個累加器:在每次循環中,一個累加器自增 1,另一個累加器在每次循環中累加 a。當第一個累加器達到 b 時,循環結束,第二個累加器的值即為結果 c。在該過程中,累加器通過現有的加法操作符實現,循環終止條件由小于操作符實現,而乘法自身不參與實際運算,僅驅動該流程的執行?;谠撍悸罚梢詷嫿ǔ朔ǖ某橄髨绦辛鞒蹋鐖D 3 左側的自動機圖所示。以 “89×2=” 這個問題為例,圖 3 的右側展示了 executor 的完整執行流程。



圖 3. 89×2 執行過程

通過上述設計,CAEF 賦予了 LLM 執行計算的能力,executor composer 的存在還使得該方法具有很高的擴展性,能夠有效處理復雜計算。

實驗結果

該工作評估了不同運算符、不同位數情況下的算術準確率。實驗使用 LLaMA 3.1-8B 預訓練模型作為基礎模型,在 +、?、×、÷、==、> 和 < 這 7 個運算符上和三個基準進行了比較:1)LLaMA 3.1-8B 預訓練模型基于 LoRA、在僅給出計算結果的數據集上直接微調得到的模型、2)LLaMA 3.1-8B-Instruct、3)GPT-4o。



表 1. 七種運算符的總體評估結果,“LLaMA 3.1 (L)” 代表 LoRA 微調后的 LLaMA 3.1-8B,“LLaMA 3.1 (I)” 代表 LLaMA 3.1-8B-Instruct 模型

表 1 展示了 7 個運算符的 CAEF 方法和基準的評估結果。與基準相比,CAEF 在不同運算符、不同長度的操作數的設置下表現相對穩定,準確率高。特別是對于長數字的任務,例如 100 位加法,通過 CAEF 指導的 LLM 可以有效地學習到計算邏輯。

為了進一步探索 executor 和 aligner 在計算過程中的實際性能,該工作在同一數據集上分別進行了評估。如表 2 所示,可以觀察到,即使 executor 必須以迭代方式反復生成中間計算步驟,而 aligner 只執行兩個轉換步驟,但 executor 的整體性能仍然優于 aligner。executor 在所有實驗設置中都達到了 99% 以上的準確率,說明當提供正確的初始狀態和命令時,它在絕大多數情況下都能有效工作。另一方面,在大多數情況下,與轉換 executor 的輸出相比,aligner 在轉換原始輸入時表現出較低的精度,這表明整個計算過程的瓶頸在于操作數的翻轉,而不是計算本身。



表 2. 七種運算符的 executor 和 aligner 準確率,executor 的準確率統計的是從初始狀態到最后一步中,每一步都正確、最終計算正確的情況。aligner 的精度分為兩部分:從原始輸入到 executor 表示的轉換,記為 aligner (I),以及從 executor 表示到輸出的轉換,記為 aligner (O)。

參考文獻:

[1] Timo Schick, Jane Dwivedi-Yu, Roberto Dess`?, Roberta Raileanu, Maria Lomeli, Eric Hambro, Luke Zettlemoyer, Nicola Cancedda, and Thomas Scialom. Toolformer: Language models can teach themselves to use tools. Advances in Neural Information Processing Systems, 36, 2024.

[2] Zhibin Gou, Zhihong Shao, Yeyun Gong, Yujiu Yang, Minlie Huang, Nan Duan, Weizhu Chen, et al. Tora: A tool-integrated reasoning agent for mathematical problem solving. arXiv preprint arXiv:2309.17452, 2023.

[3] Joy He-Yueya, Gabriel Poesia, Rose E Wang, and Noah D Goodman. Solving math word problems by combining language models with symbolic solvers. arXiv preprint arXiv:2304.09102, 2023.

[4] Pan Lu, Baolin Peng, Hao Cheng, Michel Galley, Kai-Wei Chang, Ying Nian Wu, Song-Chun Zhu, and Jianfeng Gao. Chameleon: Plug-and-play compositional reasoning with large language models. Advances in Neural Information Processing Systems, 36, 2024.

[5] Ke Wang, Houxing Ren, Aojun Zhou, Zimu Lu, Sichun Luo, Weikang Shi, Renrui Zhang, Linqi Song, Mingjie Zhan, and Hongsheng Li. Mathcoder: Seamless code integration in llms for enhanced mathematical reasoning. arXiv preprint arXiv:2310.03731, 2023.

[6] Aojun Zhou, Ke Wang, Zimu Lu, Weikang Shi, Sichun Luo, Zipeng Qin, Shaoqing Lu, Anya Jia, Linqi Song, Mingjie Zhan, et al. Solving challenging math word problems using gpt-4 code interpreter with code-based self-verification. arXiv preprint arXiv:2308.07921, 2023.

[7] Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin, David Bieber, David Dohan, Aitor Lewkowycz, Maarten Bosma, David Luan, et al. Show your work: Scratchpads for intermediate computation with language models. arXiv preprint arXiv:2112.00114, 2021.

[8] Yi Hu, Xiaojuan Tang, Haotong Yang, and Muhan Zhang. Case-based or rule-based: How do transformers do the math? arXiv preprint arXiv:2402.17709, 2024.

[9] Yongchao Zhou, Uri Alon, Xinyun Chen, Xuezhi Wang, Rishabh Agarwal, and Denny Zhou. Transformers can achieve length generalization but not robustly. arXiv preprint arXiv:2402.09371, 2024.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
61歲潘石屹近況曝光:清倉全身而退,沒有爛尾樓和負債,人在紐約

61歲潘石屹近況曝光:清倉全身而退,沒有爛尾樓和負債,人在紐約

詩詞中國
2025-04-14 13:15:24
醫生直言:老年癡呆最早信號,不是忘事!而是頻繁出現這3異常!

醫生直言:老年癡呆最早信號,不是忘事!而是頻繁出現這3異常!

今日養生之道
2025-03-24 16:59:30
余承東官宣華為路由 X1 Pro:可覆蓋 120 平米,信號能穿三堵墻

余承東官宣華為路由 X1 Pro:可覆蓋 120 平米,信號能穿三堵墻

IT之家
2025-04-14 09:38:10
奧尼爾轉發現役最有可能入選名人堂的20人名單

奧尼爾轉發現役最有可能入選名人堂的20人名單

阿雄侃籃球
2025-04-14 23:42:08
蔚來在上海交付達10萬臺,李斌:蔚來一半的用戶來自市場競爭最激烈的長三角

蔚來在上海交付達10萬臺,李斌:蔚來一半的用戶來自市場競爭最激烈的長三角

澎湃新聞
2025-04-13 22:28:26
CBA將在明后兩天的季后賽比賽中啟用外籍裁判

CBA將在明后兩天的季后賽比賽中啟用外籍裁判

直播吧
2025-04-14 22:07:14
高速路口,果斷擊斃!

高速路口,果斷擊斃!

微聚新余
2025-04-14 19:40:26
天塌不下來,但食品很快會漲價,如果實在吃不起飯可以找我救急

天塌不下來,但食品很快會漲價,如果實在吃不起飯可以找我救急

基本常識
2025-04-07 22:02:36
32歲男子娶救命恩人的女兒,年輕貌美才24歲,網友:啥便宜都占了

32歲男子娶救命恩人的女兒,年輕貌美才24歲,網友:啥便宜都占了

農村情感故事
2025-04-14 18:45:50
場均26+6+10!哈登聯盟第一,船記賽后感謝,而美媒談喬治攤牌了

場均26+6+10!哈登聯盟第一,船記賽后感謝,而美媒談喬治攤牌了

巴叔GO聊體育
2025-04-14 11:46:29
當78歲特朗普亮出體檢報告,美國網友徹底瘋了

當78歲特朗普亮出體檢報告,美國網友徹底瘋了

揚水站
2025-04-14 21:57:37
就在今日!4月14日傳來了四川女籃李夢、韓旭、王思雨的最新消息

就在今日!4月14日傳來了四川女籃李夢、韓旭、王思雨的最新消息

眼界縱橫
2025-04-14 12:06:12
楊瀾和鄧亞萍現身洛陽賞牡丹,兩人相差5歲,一對比氣質立顯高低

楊瀾和鄧亞萍現身洛陽賞牡丹,兩人相差5歲,一對比氣質立顯高低

阿褲趣聞君
2025-04-14 09:11:08
62歲關之琳打扮時髦,和1米8小鮮肉同游日本,這才是富婆退休生活

62歲關之琳打扮時髦,和1米8小鮮肉同游日本,這才是富婆退休生活

娛樂x冰淇淋
2025-04-06 13:53:33
加時獨得12分!哈登39分率隊賽季橫掃勇士,西部最終排名確定!

加時獨得12分!哈登39分率隊賽季橫掃勇士,西部最終排名確定!

Haviven聊球
2025-04-14 23:24:45
0分0板0斷0助0帽!遼寧隊贏球他卻高興不起來,遭到楊鳴棄用

0分0板0斷0助0帽!遼寧隊贏球他卻高興不起來,遭到楊鳴棄用

體育哲人
2025-04-14 12:11:53
扎心!41歲韓庚節目中忘戴假發,頭頂禿一大片,斷崖式衰老引熱議

扎心!41歲韓庚節目中忘戴假發,頭頂禿一大片,斷崖式衰老引熱議

鄭丁嘉話
2025-03-31 10:01:24
納斯達克中國金龍指數漲幅擴大,現漲4%

納斯達克中國金龍指數漲幅擴大,現漲4%

每日經濟新聞
2025-04-14 21:48:09
香港查獲25噸走私銻錠!能幫美國制造上萬枚導彈,誰是背后保護傘

香港查獲25噸走私銻錠!能幫美國制造上萬枚導彈,誰是背后保護傘

國際阿嘗
2025-04-12 10:11:54
傳奇!利物浦曬薩拉赫破英超紀錄海報,27球18助力壓哈蘭德&亨利

傳奇!利物浦曬薩拉赫破英超紀錄海報,27球18助力壓哈蘭德&亨利

直播吧
2025-04-14 18:56:14
2025-04-15 00:51:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10359文章數 142295關注度
往期回顧 全部

科技要聞

多款熱門芯片暫停報價 華強北多檔口歇業

頭條要聞

任教31年被解聘教師:同情況只剩我一個仍是"編制外"

頭條要聞

任教31年被解聘教師:同情況只剩我一個仍是"編制外"

體育要聞

他演過周星馳電影,62歲還要拿世界冠軍

娛樂要聞

專訪 | 王安宇:角色是為觀眾服務的

財經要聞

通過人民幣貶值應對關稅?

汽車要聞

B級車要集體失眠? 吉利銀河星耀8"全都要"

態度原創

房產
藝術
數碼
公開課
軍事航空

房產要聞

教育理想落地!9年制華師附與未來方洲正式簽約,定義“未來教育”新高度

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

小米推出米家空調 Pro 人感上出風:雙毫米波雷達,售 3999 元

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍駐格陵蘭島太空基地指揮官遭解職

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 岳池县| 汝阳县| 吉林省| 武安市| 石首市| 比如县| 河间市| 鄂尔多斯市| 咸宁市| 北流市| 镇远县| 西藏| 井陉县| 建昌县| 山阴县| 喀什市| 峨山| 乐东| 乌鲁木齐县| 岑溪市| 武穴市| 临武县| 横峰县| 普陀区| 敖汉旗| 湾仔区| 偃师市| 出国| 福泉市| 庆云县| 灌南县| 秦皇岛市| 乐至县| 姜堰市| 津南区| 城口县| 樟树市| 江华| 来宾市| 乌拉特中旗| 久治县|