- 大模型的下半場,正在進入“智能體”涌現(xiàn)時間。
最近,OpenAI 的秘密項目“Q*”一直受到了圈內人士的廣泛關注。上個月,以它為前身、代號為“草莓(Strawberry)”的項目又被曝光了。據(jù)推測,該項目能夠提供高級推理能力。
就在人們翹首以盼“Q*”的時候,一家名為MultiOn的初創(chuàng)公司的CEO Div Garg在推特上頻頻使用草莓表情,并發(fā)布了一款名為Agent Q的智能體,讓人不禁聯(lián)想到OpenAI神秘的Q項目。
有人猜測,這背后可能有OpenAI的Q*項目加持。MultiOn公司不僅給AgentQ開設了獨立的X賬號,而且賬號的背景圖片和基本信息都與草莓有關,這無疑增加了人們對其背后技術的好奇。
最被看好的AI應用方向
近年來,大型語言模型(LLM)在人工智能領域取得了顯著的進步。像ChatGPT、Gemini、Opus和LLaMA-3這樣的前沿模型展現(xiàn)出強大的推理能力,在許多領域的表現(xiàn)接近甚至超越了人類平均水平。這些突破將LLM的應用范圍從傳統(tǒng)的聊天和基于文本的任務擴展到了更具動態(tài)性的智能體角色,使其不僅可以生成文本,還可以在各種環(huán)境中自主地執(zhí)行操作。
然而,一個重大的挑戰(zhàn)依然存在:LLM在交互式、多步驟的環(huán)境中仍然難以有效地泛化。Muli0n的研究人員致力于解決這一難題他們的目標是設計一種方法,使智能體能夠利用自主經(jīng)驗和有限的監(jiān)督來進行改進。為此,他們引入了Agent Q--一種將推理、搜索自我批評和強化學習等多個關鍵概念相結合的新方法。
Agent Q的設計靈感來自于Suton提出的“痛苦教訓",即那些能夠隨著計算量的增加而不斷擴展的通用方法的力量,這表明了將搜索和學習結合起來的巨大好處。
在Open Table上進行的真實世界預訂實驗中,Agent Q大幅提高了LLaMa-3模型的零樣本性能,將其成功率從18.6%提升至81.7%提升幅度高達340%,并且僅需一天的自主數(shù)據(jù)收集。如果啟用在線搜索功能,成功率更可進一步提升至 95.4%。這些結果突出了Agent Q方法在提升自主Web智能體效率和性能方面的顯著效果。
Agent Q作為AI智能體的一種,具有自主性、反應性、社會性、認知性、思辨性等特征的智能“代理”,能夠自主理解、規(guī)劃決策、執(zhí)行復雜任務等。它的核心在于自主性的增強,即可以獨立完成某項工作,不必人類進行過多的審核校正,可以將成本降到最低。
OpenAI對AI智能體的定義著重于其作為一個以大型語言模型為核心的系統(tǒng),這個系統(tǒng)具備自主理解感知、規(guī)劃、記憶和使用工具的能力,使其能夠自動完成復雜的任務。
AI智能體的基本框架包含四個主要模塊:記憶、規(guī)劃、工具使用和行動。
記憶模塊負責存儲信息,既包括過去的交互和學習到的知識,也包括臨時的任務信息。有效的記憶機制對智能體來說至關重要,使其能夠在遇到新的或復雜情況時,調用過往的經(jīng)驗和知識。記憶又分為短期和長期兩種,短期記憶用于上下文學習,而長期記憶則通過外部數(shù)據(jù)庫和快速檢索,為智能體提供長時間保留和回憶信息的能力。
規(guī)劃模塊包括事前規(guī)劃和事后反思兩個階段。事前規(guī)劃涉及對未來行動的預測和決策,幫助智能體高效地規(guī)劃步驟和行動以達到目標。事后反思則讓智能體能夠檢查和改進計劃中的不足,從錯誤中學習并加入長期記憶,以此更新對世界的認知。
工具使用模塊使智能體能夠利用外部資源或工具執(zhí)行任務。例如,它們可以調用外部API來獲取模型數(shù)據(jù)中缺失的信息,或者使用特定軟件分析大量數(shù)據(jù)。這種工具使用方式提升了智能體的效率和任務完成能力。
行動模塊是智能體實際執(zhí)行決策和響應的部分。智能體擁有一系列行動策略,根據(jù)不同任務選擇相應的行動,如記憶檢索、推理、學習和編程等。
當前,AI智能體的技術難點主要包括以下幾個方面。
第一,理解復雜任務。AI智能體需要能夠理解并執(zhí)行復雜的、多步驟的任務,這要求模型具備強大的理解能力和規(guī)劃能力。
第二,記憶和知識管理。為了在執(zhí)行任務時保持連貫性和上下文理解,AI智能體需要具備長期記憶的能力,這涉及到有效的信息存儲和檢索機制。
第三,工具使用和集成。AI智能體需要能夠與外部環(huán)境進行交互,需要能夠使用和集成各種工具和服務,包括調用API、使用軟件應用程序等。這要求模型具備一定的外部工具使用能力,以完成任務,同時需要注意不同工具之間的互操作性和集成問題。
第四,多模態(tài)理解。AI智能體在實際應用中可能需要處理和理解多種類型的輸入,如文本、圖像、音頻等,這要求模型具備多模態(tài)理解的能力,并能夠與用戶進行自然的交互。
第五,安全性和可靠性。在執(zhí)行任務時,AI智能體需要確保操作的安全性和可靠性,避免產生不可預測的錯誤或風險。
第六,倫理和隱私問題。AI智能體的開發(fā)和使用涉及到安全和倫理問題,如隱私保護、偏見和公平性等,需要確保AI智能體的行為符合道德和社會規(guī)范。
大廠集體攻堅“智能體”
隨著AI浪潮風起云涌,國內互聯(lián)網(wǎng)大廠們都一一成為急先鋒,不斷在AI領域加碼,不論是阿里巴巴騰訊,還是字節(jié)跳動拼多多百度,都將AI視為核心戰(zhàn)略。從最近一段時間開始,組建AI應用商店,創(chuàng)造各類智能體應用,搭建AI生態(tài),成了大廠們的熱門潮流。
智能體應用是基于內嵌于終端的本地大模型打造,精準理解用戶意圖,并將意圖轉換為相應的任務組合,分解任務并識別任務完成的路徑,通過查詢本地知識庫、調用設備API以及合適的模型或應用來執(zhí)行相應的任務,并將相應的結果返回給智能體,智能體完成整合后反饋給用戶。
簡單來說,智能體將成為AI OS系統(tǒng)的最小工作單元,在PC、手機、自動駕駛領域預計有廣泛的應用場景。而承載智能體應用的最好容器,就是AI應用商店。
2024年2月,字節(jié)跳動正式推出“Coze扣子”AIBot開發(fā)平臺。據(jù)其官方描述稱:無論你是否有編程基礎,都可以在扣子上快速搭建基于大模型的各類Bot,并將Bot發(fā)布到各個社交平臺、通訊軟件或部署到網(wǎng)站等其他渠道。
2024年4月,百度旗下的“靈境矩陣”正式更名為“文心智能體平臺”,基于文心大模型,支持廣大開發(fā)者根據(jù)自身行業(yè)領域、應用場景,選取多樣化的開發(fā)方式,打造大模型時代的原生應用。
2024年5月,騰訊基于“混元大模型”上線一站式AI智能體創(chuàng)作與分發(fā)平臺“騰訊元器”。用戶不僅可以在平臺上創(chuàng)建專屬AI智能體,使用騰訊官方的插件和知識庫,還能將這些智能體一鍵分發(fā)到QQ、微信客服、騰訊云等渠道上。
除此之外,近日又傳出微信的云開發(fā)團隊正在打造一款名為“云開發(fā)AI智能體”的應用平臺,這是一個多平臺AI智能體開發(fā)框架,用于企業(yè)和小程序提供專屬的智能體平臺。
螞蟻集團也在開發(fā)一款AI應用搭建工具“芝士餅”。用戶通過該平臺也能夠在無代碼的情況下搭建AI應用,支持創(chuàng)作成支付寶小程序等多種產品形態(tài)。
如今,國內AI應用商店、智能體應用平臺已經(jīng)成為“風暴眼”。2023年,大廠們的注意力放在搭建AI大模型;2024年,大廠們又轉向搭建智能體應用平臺。
目前為止,AI智能體并沒有誕生一個“超級巨頭”,所有玩家都是起步階段,用戶教育還在初級層次。這場AI世界分發(fā)權的斗爭,注定要持續(xù)很久。
AI智能體技術演化路徑
AI智能體正成為人工智能成為基礎設施的關鍵驅動力。從技術發(fā)展角度看,技術最終會演變成基礎設施,就像水、電一樣變得無處不在而又必不可少,云計算就是一個類似例子。
IDC《AIGC應用層十大趨勢》報告調研表明,所有企業(yè)都認為AI智能體是AIGC發(fā)展的確定性方向,50%的企業(yè)已經(jīng)在某項工作中進行了AI智能體的試點,另有34%的企業(yè)正在制定AI智能體的應用計劃。
《2024數(shù)字科技前沿應用趨勢》中,“多模態(tài)智能體加速AGI進程”被列為第二大趨勢。報告認為,通用人工智能漸行漸近,大模型走向多模態(tài),AI智能體有望成為下一代平臺;端側大模型加速部署,或將成為未來交互新入口。AI在數(shù)學推理、新藥研發(fā)、材料發(fā)現(xiàn)、蛋白質合成等領域大顯身手,“AI科學家”有望加速問世。
綜合多家研究報告來看,AI智能體的發(fā)展或將出現(xiàn)幾條最具前景的路徑。
首先,是多智能體系統(tǒng)(Multi-Agent Systems,MAS),其是由多個互相協(xié)作或競爭的自治智能體組成的系統(tǒng),旨在通過集體行為解決復雜問題。智能體的主要任務通常包括感知環(huán)境、處理信息、做出決策,并與其他智能體交互以實現(xiàn)共同的目標。
該系統(tǒng)由多個自治的、互動的、異構的智能體組成,每個智能體都有自己的目標、行為、信念和偏好,同時也受到環(huán)境的影響和約束。其目標是實現(xiàn)智能體之間的協(xié)作和競爭的平衡,使得每個智能體都能達到自己的目標,同時也能促進整個系統(tǒng)的性能和效益。
難點是如何處理智能體之間的復雜的交互和協(xié)調,如何解決智能體之間的沖突和矛盾,如何評估智能體的表現(xiàn)和進步,如何接受人類的反饋和指導,如何遵守人類的倫理和法律等。
智能體可以以協(xié)作或競爭的方式相互交互。這使他們能夠通過團隊合作或對抗性互動來實現(xiàn)進步。在系統(tǒng)中,智能體可以共同完成復雜的任務或相互競爭以提高其性能。
比如用于模擬和優(yōu)化交通、能源、物流等領域的復雜系統(tǒng),也可以用于設計和實現(xiàn)智能家居、智能城市、智能工廠等應用場景。
第二,是自主智能體(Autonomous Agent),其是指能夠在環(huán)境中感知、學習和執(zhí)行動作的智能實體。這種實體具有自主性,即它能夠獨立地做出決策和行動,而無需人為干預。
自主智能體具備自主決策和行動能力,能夠在給定的環(huán)境中自主地感知、學習和做出決策,以實現(xiàn)特定的目標。自主智能體能夠根據(jù)環(huán)境的變化和反饋信息,不斷地適應和改進自己的行為,從而實現(xiàn)更好的性能和效果。
它通常被設計成具備對環(huán)境的感知能力,能夠根據(jù)感知到的信息做出理性的決策,并執(zhí)行相應的動作以達到特定的目標。在實現(xiàn)自主性的過程中,機器學習和深度學習等技術發(fā)揮了關鍵作用。
自主智能體的設計和實現(xiàn)涉及多個方面,包括但不限于機器學習、自然語言處理、計算機視覺等AI技術的綜合運用。
它們被設計用于執(zhí)行各種不同的任務,如管理社交媒體賬戶、投資市場、制作兒童讀物等,甚至在一些情況下,它們可以幫助人們釋放時間去做更有創(chuàng)造性的事情。其研究價值主要體現(xiàn)在強化學習和機器人學中,例如DeepMind的AlphaGo和OpenAI的 OpenAI Five(一個會打團戰(zhàn)的Dota2游戲AI)都是比較典型的基于強化學習智能體運用。
LLM爆發(fā)以后,近一年來關于自主智能體的研究和話題開始呈現(xiàn)井噴之勢,例如AutoGPT、BabyAGI、GenerativeAgents、MetaGPT等項目在Github上已狂攬上萬star,成為炙手可熱的明星項目。
第三,是超級個體。基于智能體的人機協(xié)同模式,每個普通個體都有可能成為超級個體。超級個體是一個由許多有機體組成的有機體系,通常是一個真社會性動物的社會單位,其中社會分工被高度專業(yè)化,且個體無法獨自長時間地生存。
在現(xiàn)代社會中,超級個體也可以指精通一項或多項專業(yè)技能,并完成商業(yè)變現(xiàn),最終對傳統(tǒng)雇傭關系實現(xiàn)脫離依附的復合型人才。
AI智能體可以賦予超級個體更多的機遇,使個人能夠在更廣闊的領域展示才華,通過AI賦能進行創(chuàng)造性工作,足以打造一個人的團隊與公司。
超級個體是擁有自己的AI團隊與自動化任務工作流,基于智能體與其他超級個體建立更為智能化與自動化的協(xié)作關系。現(xiàn)在業(yè)內不乏一人公司、超級個體的積極探索。
Github平臺上,已經(jīng)出現(xiàn)一些基于智能體的自動化團隊項目。比如GPTeam利用大模型創(chuàng)建多個被賦予角色和功能的智能體,多智能體協(xié)作以實現(xiàn)預定目標。Dev-GPT是一個自動化開發(fā)和運維的多智能體協(xié)作團隊,包含了產品經(jīng)理智能體、開發(fā)人員智能體和運維人員智能體等角色分工,可以滿足和支撐一個初創(chuàng)營銷公司的正常運營。NexusGPT整合了開源數(shù)據(jù)庫中的各種AI原生數(shù)據(jù),并擁有800多個具有特定技能的AI智能體。在該平臺上,你可以找到不同領域的專家,例如設計師、咨詢顧問、銷售代表等。雇主可以隨時在這個平臺上選擇一個AI智能體幫助他們完成各種任務。
AI智能體作為人工智能領域的一項革命性技術,預示著人類與機器之間協(xié)作方式的根本變革。隨著AI智能體技術的進一步發(fā)展和成熟,我們預期會看到更智能、更高效、更個性化的智能助理,將極大地提升人類的生產力和生活質量。然而,技術進步也伴隨著安全、倫理和社會挑戰(zhàn),需要我們在享受技術帶來的便利的同時,也要不斷審視和解決這些挑戰(zhàn),從而為技術的未來發(fā)展找到一條切實可行的路徑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.