去年7月,有道發布了“子曰” 教育大模型。時至今日,已過去16個月。在這段時間里,“子曰” 化身虛擬人,走進課堂,還植入了硬件設備。有成功,亦有失敗。然而,我們的團隊始終奮戰在大模型教育應用的第一線。值此之際,與大家分享我們的收獲、教訓與體會。
01 共識:AIGC市場潛力巨大,教育領域天然適用大模型
大模型和AIGC技術適合教育領域,這個已然成為行業共識。在我國,有1.5億中小學生以及近5000萬大學生,然而教師總數卻不到2000萬,平均10個學生才有一位老師。教師數量不足是教育領域長期存在的矛盾,這與醫療領域的情況頗為相似。
與以往技術相比,大模型技術更能夠有效提升“教”與“學”這兩個本質上屬于思維活動的效率,因而從長遠來看,其非常適合教育領域。
自兩年前ChatGPT問世以來,我的觀點始終是“大模型的浪潮將持續十年,應用層機會巨大”,2009年,3G正式上線,同年iPhone 3GS上市,由此正式拉開了移動互聯網的序幕。在隨后的十年時間里,每隔一到兩年便會有革命性的應用或軟件平臺出現,而像抖音這樣的巨量應用,則是七年后才出現。我認為大模型會呈現類似的發展趨勢,對科技產業的推動作用將長達十年甚至更久。
如今,OpenAI的年化收入已經達30億美元,國內產品豆包的日活躍用戶數DAU已接近1000萬,Talkie這樣的娛樂應用也擁有可觀的體量。如果說去年這種看法還比較小眾,那么今年可能更多的人會持有類似的觀點(當然,唱衰大模型的人也明顯增多了,這也是很自然的事情)。
具體而言,在教育領域,三大場景逐漸成為關鍵應用點:
- 學校場景:AI定位于“教學助手”,能夠協助老師備課,解決學生作業問題以及進行學習答疑。目前,在這些方面已經涌現出不少出色的應用。其對應的商業模式為2B2G,是教育信息化業務的進一步演進。
- 家庭場景:AI定位于“家庭教師”,屬于典型的2C場景,由于媽媽們消費能力強大,家庭教育場景也成為關鍵場景。AI可以助力完成孩子的學習指導、對學習進度的智能督促,還能協助進行學習規劃和志愿填報等任務。
- 自學場景:AI定位于“學習伙伴”,這是與家庭場景相關聯的另外一個重要的2C大場景,且更多地以學生為中心。它是傳統學習App和學習硬件的大模型升級,能夠幫助學生更好地進行自主學習,完成AI練習、AI答疑以及提供心理陪伴等任務。
從智能能力上分層,是審視AI應用的另外一個視角,可以直觀地將大模型在教育應用中的智能能力劃分為四層:
- L1 交互問答。通過文字和語音方式實現問答交互,這屬于系統的QA人工智能應用。
- L2 人性化輔導。這一層目前普遍能夠達到,具有更個性化的上下文,更自然的文字和語音交流,并且帶有情緒價值輸出,是新型的AI機器人,相比L1,用戶價值有了大幅提升。
- L3 主動輔導學習。更進一步,機器開始具備一定的教學能力,能夠在特定場景(例如英語學習)中,有效地引導特定群體(如雅思學生或少兒)進行高效學習。這是當前很多新產品的努力目標。
- L4 虛擬老師。作為高級形態,AI虛擬老師需要接近真人老師的全面能力,能夠在一定環境下代替人類老師開展工作,這要求機器具備很強的基礎AI能力,包括知識儲備、長期記憶、各科解題能力、教學方法,以及應用心理學和教育學的能力,同時內置多科教學內容。當然,也需要具有很強的安全性和價值觀保障。
目前L2是很多產品已經具有的能力,L3是業內不少產品團隊正在努力的目標,而隨著基礎模型認知能力的快速提升,L4虛擬老師的實現或許并不遙遠。
02 兩個已經能跑通的教育大模型應用方向
自ChatGPT誕生的兩年以來,眾多團隊對教育類的大模型應用進行了大量嘗試,有道的團隊也展開了公司歷史上最為集中的快速試錯歷程。所有團隊面臨著“如何利用大模型改造和升級業務”這一問題。
作為商業公司,使產品實現增長并跑通商業模式是團隊必須跨越的關卡。以下是我們認為已經基本跑通的兩個應用方向。
首先,語言類學習是大模型可以很好支持的應用領域。大模型本來就具有強大的語言能力,還具備跨語言交互功能,十分擅長聊天,堪稱天然的優秀語言教師苗子。基于此,我們大力推進了Hi Echo項目,在國外,韓國的Speak、美國的Duolingo等也在這一方面進行了諸多嘗試。
在項目實施過程中,我們也獲得了一些起初未曾有過的認知。一方面,我們發現對語言學習類應用,良好的視覺形象對產品有巨大的推動作用,Hi Echo的高保真虛擬人是該產品超越同類產品的重要原因。今年,我們還推出了可愛的卡通版兒童模式,同樣深受孩子們的喜愛。
第二個認知,垂直化落地到具體場景非常有幫助,除了兒童版,Hi Echo還與雅思官方合作推出內容,這兩個垂直內容頗為成功,提升了整體的留存率、活躍度和付費率。當前,Hi Echo實現了在不錯規模下連續數月的持續盈利。
第二個應用是全科答疑,我們認為也已成功跑通。全科答疑的難度比語言學習大得多,并且基礎模型在所有學科中需求最大的數學方面尚有不足,因此,在去年的時候,我們團隊并不確認其一定可行。然而,通過一年持續打磨模型和產品,目前我們發現用戶對基于大模型的全科答疑產品(有道“小P老師”)非常歡迎,其用戶自然流量增長較快,且解決用戶問題的成功率較高。
我們看到,用戶對于全科答疑產品期待是多方面,要做出一個好的答疑產品,需要在大量細節上都做到位:
- 基礎答復質量:通過為模型增加針對性訓練語料,以及采用RAG等知識庫方法,可以使產品達到用戶可接受的基礎質量。同時,行業基礎模型方面的不斷革新,也為質量的進一步提升帶來了機會。
- 加強學習方法類功能:學習產品垂直性的一大體現,就在于用戶期望產品能夠“授之以漁”。因此,小P老師的題目知識點、考點分析以及同類題推薦等功能受到了用戶的歡迎。
- 用好攝像頭:學習答疑與其它非教育聊天類產品相比,一大特點就是輸入復雜,涉及公式、圖片以及排版復雜等情況。所以,輸入是否方便準確,是用戶是否喜歡用該產品的一大關鍵。目前,多模態模型既有優勢也有缺點,所以有道小P使用一套混合的方法來解決復雜輸入的問題,這里未來的提升空間也很大。
除了上述兩個方向,我認為還有很多可做的方向,在此簡單列舉一些:
- 大學課程助教:大學學習本身的自主程度和數字化程度就比較高,所以能輔助教授執行教學輔助任務的智能助教將會非常有用。對于學生來說,可以提供練習、復習、查詢、課程相關通知等一系列服務,具有較高價值。高教社與有道合作的中國大學MOOC,最新上線了課程AI助教模塊,相信會越來越好用。
- 智能備課:對于各個學段來說,老師根據所教學習群體的特點進行針對性備課,一直是教學實踐過程中的重點。大模型具有較強的交互能力、知識能力和智能體能力,應該可以針對備課場景開發出好用的產品。
- 心理陪伴:利用大模型很強的交流和情緒感知能力,可以輔助青少年心理教育,提供良好的個性化服務,同時保護學生的隱私,也能緩解這個領域人力嚴重不足的問題。
相信實際可行的方向會更多。
03 大模型在文科領域已經“超人”,在理科方面也不會太久
在很多文字類以及記憶性、直覺性強的任務方面,例如文字潤色、知識問答、文秘助理等,大模型的能力已經超越人類。映射到教育大模型上,在外語學習、語文分析以及各文科(英語、語文、歷史、地理)的解題和答疑方面,已經達到了相當高的質量,通過精心的產品設計,完全可以打造出一批具有前景的產品。相對來言,在數學、物理等理科方面,大模型的基礎能力還較為薄弱。
那么此時,我們必然會提出一個問題:大模型的理科能力未來是否能夠快速提升?又需要多久能在理科方面達到與許多文科領域一樣“超人”的程度呢?
我的猜測是大模型在理科方面不需要太久,快則1-2年時間,也會在很多任務上達到超越人類的水平。
這只是一個“有一定依據的猜測”,也可能完全錯誤。不過,大家可以看看我的邏輯,權當娛樂。
大家最為熟悉的AI超越人類的故事,發生在圍棋領域,實際上,機器的棋力已經遠超人類最高水平棋手。下圖展示了AlphaGo系列引擎的棋力Elo分值與目前世界排名第一的申真谞的對比:
最右側的2017年的AlphaGo Zero得分為5185分,高出申真谞1342分。這是什么概念呢?基于Elo這個勝率指標來計算,若你與對手相差800分,勝率大約為1%,即下100場能勝一場。所以,1342分的差距意味著勝率不會高于千分之一。因此,在圍棋領域,目前機器就如同神一般的超人存在。
那么,AlphaGo Zero這套方法是否具有代表性?它能否與大模型有所結合呢?答案是,這是目前很多工業界和學術界人士正在努力實踐和證明的事情
AlphaGo Zero是一個窄領域(棋類)內的自我學習(Self-Learning)人工智能,使用的根本性方法是增強學習(Reinforcement Learning),其基本學習過程與最初的AlphaGo有很大不同,初版AlphaGo是通過學習人類棋譜來提升自己,而AlphaGo Zero則是直接基于圍棋規則,沒有任何棋譜,在大量模擬棋局中通過RL增強學習算法來提升自己,從而達到超越人類的狀態。實際上,增強學習方法在很多時候僅需要一套封閉的規則(下棋,或者機器人的機械運動規律,或者數學公理),以及希望到達的目標的衡量方法(獎勵函數,Award Function),就可以通過大量模擬訓練來不斷提升水平。
目前,大模型訓練中使用的RLHF(帶人類反饋的增強學習)就是一個簡化版本的增強學習,而Andrej Karpathy等人也很早就認為RLHF過于簡單,限制了大模型的能力。所以各種信息都表明,將增強學習、過程反饋以及思維鏈等一系列在多個需要深度思考的窄領域中行之有效的方法應用到大模型訓練中,應該可以快速提升模型的數理推理能力。近期大火的OpenAI o1,其基于的重要方法正是增強學習,再加上思維鏈。
因此,從這個角度來說,我猜測大模型的數理推理能力快速提升是可以預期的,機器能夠自行證明全新的數學定理,甚至獨立進行科學研究的未來可能并不遙遠。
04 基于2C App和學習硬件推動教育大模型發展
回到教育大模型,除了涉及做什么學科,在什么場景應用之外,還有一個關鍵問題是商業模式——是2C,2B,2G,還是有其它收獲商業價值的方法。
首先,2B2G逆流前進。對于很多團隊而言,包括大模型“六小虎”,2B2G都是基礎的商業模式。通過有遠見的企業或政府采購來落地應用,是許多新技術的開端方式,對大模型也不例外。
然而,從實踐來看,這一輪大模型的2B2G應用,暫時可能確實也就只能起到一個開端的作用,要支撐起很多家公司的發展甚至盈利還是比較困難的。我們的感受和很多人一樣,今年比去年更加困難一些。
當然,隨著一項新技術的發展成熟,2B可能最終成長為巨大的商業化通道。比如PC產業的發展,最后催生了x86服務器和云這個支撐PC產業半壁江山的2B產業。但目前大模型領域,包括教育大模型,還沒有看到這樣的端倪。
好消息是,2C應用更加樂觀。與B和G端下單吝嗇相比,大量消費者對于能夠擊中他們應用場景的AI產品熱情高漲。從我們的觀察來看,AIGC的出現,扭轉了之前數年用戶對新App嘗試率逐年下降的趨勢,用戶又開始安裝新App了,用戶的好奇心爆棚。而且,會員收費模式早已被年輕一代接受,因此不但留存率上漲,日活漲,好產品的收入也快速上升。
AIGC本質上搭上了中國軟件再度收費化的車,而上一波,則是伴隨移動互聯網的發展,大量PC軟件領域從規模非常小的付費軟件,通過免費化,實現大量安裝,最后通過廣告等方式賺到錢。
有道在近幾個季度的AI訂閱收入快速增長,今年Q2已經達到6000多萬元,同比增長150%以上,這彰顯了大模型與會員模式結合所帶來的機遇。
除了軟件之外,我們也非常看到AI硬件的在教育領域機會。我認為至少有三個理由,使得大模型和AIGC能夠推動AI教育硬件得到更大規模的普及:
1、硬件提供了最大定制化體驗的機會,能夠讓大模型的能力充分發揮,從而最好地解決用戶場景問題。在大量新技術行業的初期,垂直整合通常是提供最佳用戶體驗的好辦法,最典型的例子莫過于特斯拉,它大幅改造車輛設計,充分發揮電車技術優勢,取得了成功。
在AI硬件領域也是如此,這里有一個小例子,有道詞典筆團隊通過與芯片廠商聯動,在今年的詞典筆X7與X7 Pro中實現了本地部署翻譯大模型,這使得設備在沒有網絡時可以實現比線上神經網絡翻譯(NMT)更好的翻譯質量,這樣的定制化體驗,是硬件與大模型結合的一大機遇。
2、創新形態(form-factor)帶來大模型產品的巨大設計空間和良好商業模式。Meta的雷朋智能眼鏡取得了很大成功,一個關鍵原因就是選擇了“眼鏡+攝像頭+無顯示”這樣創新的形態,這一下子把眼鏡做得更輕便,而且有非常有用的場景(戶外和運動中隨心拍攝)。那么在教育領域,本來就存在一些特定的場景和設備上的特殊性,比如低齡孩子不使用手機,這就是一個很大的特殊性。如果團隊能抓住這些形態、場景、人口學特征中蘊藏的機會,那么未來可期。
3、端側模型帶來新的機會。上面已經提到,有道今年的詞典筆已經把大模型裝入了設備中,在離線的情況下可以運行。它帶來的好處是多元的,除了提供更好的結果質量外,還有一個好處,即大模型的能力很綜合,所以一個模型可以代替掉原來多個模型,比如可以提供聊天能力,這個原來是和翻譯完全分開的模型,也可以提供文言文講解這樣用戶喜歡的功能,現在都可以合并到一起了,雖然模型大,但最后可以節省資源,使產品變得更加簡單。
ps:感謝梅初九對本文提供的有益反饋。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.