Claude 模型搞了個新玩意兒,叫 “think tool”(思考工具)
簡單來說,這個工具就像給 Claude 加了個“暫停鍵” 和 “草稿紙”,可以在復雜任務期間為結構化思考創造專用空間
這和之前他們說的 “extended thinking”(擴展思考)還不一樣。“擴展思考” 是模型在 開始生成答案前 的預先思考和迭代。而 “think tool” 是在 生成答案過程中,讓 Claude 可以隨時停下來,審視已有的信息,判斷是否需要進一步分析
這個 “思考” 有啥用?
Anthropic 官方說,這招特別適合復雜工具調用的場景。比如:
信息過載時:Claude 需要處理多個工具的返回結果,信息量太大容易懵, “思考工具” 可以幫它慢下來,仔細分析
規則繁瑣時:面對復雜的政策或指南,Claude 需要逐條核對,確保操作合規,“思考工具” 可以輔助它進行策略梳理
步步為營時:在多步驟任務中,每一步都建立在前一步的基礎上,一旦出錯代價很高,“思考工具” 可以幫助 Claude 在關鍵節點停下來,評估風險
技術細節:JSON 配置,簡單易用
Anthropic 還貼心地給出了 “think tool” 的 JSON 配置示例,開發者可以輕松集成到自己的應用中。配置非常簡潔,核心就是定義工具的名稱、描述和輸入參數(一個名為 “thought” 的字符串)
{ "name":"think", "description":"Use the tool to think about something. It will not obtain new information or change the database, but just append the thought to the log. Use it when complex reasoning or some cache memory is needed.", "input_schema":{ "type":"object", "properties":{ "thought":{ "type":"string", "description":"A thought to think about." } }, "required":["thought"] } }
效果實測:性能提升顯著為了驗證 “think tool” 的效果,Anthropic 用了 T-Bench 和 SWE-Bench 兩個基準測試。
T-Bench (客戶服務場景):在模擬客戶服務對話中,“think tool” 配合優化后的 prompt,在 Airline 領域的 pass@1 指標上提升了54%! Retail 領域也有明顯提升
SWE-Bench (軟件工程場景):在軟件工程任務中,加入 “think tool” 后,性能平均提升了1.6%
何時用,何時不用
“think tool” 雖然好用,但也不是萬能藥。Anthropic 也給出了使用建議:
推薦使用場景:
?工具輸出分析
?政策合規環境
?連續決策任務
不推薦使用場景:
?非連續工具調用
?簡單指令跟隨
研究表明,“思考”工具可以顯著提高 Claude 3.7 Sonnet 在執行需要在長鏈工具調用中遵守政策和推理的復雜任務時的性能 。 “思考”并不是一個萬能的解決方案,但它為正確的用例提供了實質性的好處,而且實現復雜性極低
參考:
https://www.anthropic.com/engineering/claude-think-tool
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.