網上流傳著兩張男女對話時的冰山模型圖:女生表達出的只是全部想法的冰山一角,男生也只能理解這小部分;而男生所有意思就只有冰山一角,女生卻以為水下還暗流涌動。
和大多數直男一樣,不善言辭的藍振忠經常受困于男女思維的差異。在和老婆交流時,他本能地會想幫她解決問題,效果卻往往不甚理想,“后來才意識到,很多時候她需要的只是傾聽和共情,問題本身,她有能力解決”。
在感同身受、提升交流效率這事上,AI能幫得上忙嗎?在卡耐基梅隆讀博期間,藍振忠就開始思考讓AI深入人心。他的妻子是卡耐基梅隆的同班同學,也是成色十足的學霸,“她學習成績比我好”。
畢業后他加入谷歌,目睹并參與了人工智能掀起的一輪又一輪浪潮,始終忘不了讀博時的那個想法。
他深信,AI有智商,也可以有情商,就像好萊塢電影《她》(Her)里的AI助手薩曼莎,或是《超能陸戰隊》里的機器人大白。
大白是個溫暖的機器人
能聽懂言外之意的大模型
西湖心辰的辦公場地,就在距離西湖大學云谷校區不到500米的云創鎵谷,這里也是西湖大學/西湖實驗室成果轉化基地的先導園區。
從谷歌回國后,藍振忠先是加入了西湖大學,然后創辦了西湖心辰,帶著一群平均年齡25歲的年輕人,一頭扎進了讓AI更懂人類情感和意圖的研究中。他們中有來自谷歌、Meta、亞馬遜等公司的AI技術人才,也有紐約大學、埃默里大學、首都醫科大學等的心理咨詢專業高才生。
9月5日在2024外灘大會上首發的通用端到端語音大模型“心辰Lingo”,便是他們最新拿出的成果。藍振忠還獲得了首屆螞蟻InTech科技獎,螞蟻集團這項純公益性獎項,頒發給對計算機領域科研進步有關鍵推動作用的中國青年學者。
正在玩《黑神話:悟空》的你:“已經打到大頭和尚那里啦,這關都打了10多次了?!?/p>
A朋友:“哇,大頭和尚都能卡住你,這水平也太感人了。”
情緒低落的你:“我有點不開心,今天和同事產生了一點小摩擦?!?/p>
B朋友:“哎,工作中的摩擦確實讓人不愉快,發生了什么事呢?是工作上的誤會還是溝通不暢?”
陪玩損友A和知心姐姐B,都是心辰Lingo與人實時交互的演示中,展現出的一部分應用場景。
“和其他AI相比,端到端的Lingo能完全模擬人的行為、情感和反應模式,可以很像人。”藍振忠說,用戶可以隨時打斷它,也可以更換人物設定(音色、職業角色)來交流。
什么是端到端?
此前我們體驗的一些AI語音工具,多依賴于TTS。這是一種將書面文本轉換為口語化語音的技術,它能讓機器說話,解決了語音輸出的問題,但不涉及意圖識別與對話理解。而端到端語音大模型的優勢,在于超低延遲和可控性。它能聽到文字以外的其他信息,比如情感、語氣、環境雜音等,從而幫助大模型更全面地理解語音內容。
“你讓它聲音調高點,又或者模仿特定音色,都相對更好控制?!彼{振忠解釋,端到端語音大模型集成語音識別、自然語言處理、意圖識別、對話管理,以及語音合成等多個環節,實現了從語音輸入到語音反饋的完整交互過程。
基于這種底層能力,各種智能設備與Lingo相結合后,可以讀出并響應用戶話語背后的真實意圖。比如聽到“陽臺的地有點臟”,掃地機器人就會主動去清掃;“陽光有些刺眼”,智能窗簾控制器便會自動調整遮光簾。
從機器視覺到自然語言處理
藍振忠來自廣東潮州,1986年出生在一個教師家庭;2007年,就讀中山大學軟件工程和統計學專業時,開始涉足人工智能;2012年,他考入全美計算機第一的卡耐基梅隆大學計算機學院語言技術研究所(LTI),專攻計算機視覺和多媒體分析;2018年,加入谷歌AI研究所,負責多個計算機視覺和自然語言處理的項目研發,研發成果被應用于谷歌新聞和谷歌助手等產品……
翻看履歷,似乎很難直接找到他“半路出家”從視覺轉向語言,專攻AI情感陪伴的原因。
對于一個i人來說,社交是一種消耗。雖然他可以清晰地將日常生活中的交流按目的歸為三類,解決問題、情感導向還有建立關系,但他也知道,自己擅長的是第一種,需要幫手。
更直接的原因,是他在臨近博士畢業時得知一位同窗因抑郁癥結束了年輕的生命。
這件事深深觸動了他。如果有外力及時介入,哪怕只是心理陪伴和初級服務,那些被心理問題嚴重困擾的人,是否會重新感受到這個世界的些許溫暖與美好?
2020年,藍振忠從谷歌辭職,回國加入西湖大學,擔任深度學習實驗室負責人、博士生導師。他想打造一臺能隨時隨地陪伴、輔助心理咨詢的對話機器人,語言處理是對話系統的核心。
一年后的7月,西湖心辰誕生,那年藍振忠也被麻省理工學院評選為亞太地區“35歲以下科技創新35人”之一。
圖片來源:西湖大學官網
回想起這段經歷,藍振忠覺得“很幸運”:2018年在谷歌時,剛好遇上機器學習范式的變化——從監督學習邁向自監督學習。在自監督學習時代,無須人工標注,機器能通過閱讀大量文本和圖像完成學習,從而大大增強了對語言和視覺內容的理解能力。
更愛在實驗室深耕技術
西湖心辰的第一款產品,是免費的心理咨詢平臺“聊會小天”。
藍振忠和團隊向心理學專家、精神科主治醫生等咨詢請教,也找來患者調研訪談。經過大量的語料積累和真實心理咨詢案例學習,加上自研的情感計算和共情模塊,小天能帶有感情地傾聽和溝通。
在公司成立兩周年的時候,西湖心辰發布多模態通用大模型“西湖大模型”,具備長期記憶、情感感知和主動聊天等能力。在此基礎上進行迭代,小天目前已能達到中級心理咨詢師的水平。
一個月前,與杭州市第一人民醫院合作的AI心理咨詢師“市一小西”上線,除了在線心理咨詢,還能依托醫學知識庫提供專業的報告解讀。
去年向西湖心辰連投兩筆資金的金科湯姆貓,最近也利用心辰Lingo的能力,將“會說話的湯姆貓”升級成為“會聊天的湯姆貓”機器人……
技術落地的場景正在不斷延展。
一邊是創業,一邊是做學問,日常在兩種身份間切換,藍振忠的內心似乎更喜歡在實驗室深耕技術?!艾F在的主要精力也在這里。技術迭代太快,回過頭看,真正能留下點東西的工作其實并不多。”所以,他想繼續做一些觸及“本質”的東西,能推動學科進步。
藍振忠頗為欣賞同是AI科學家的何愷明,認為他的工作就很“本質”,后者提出的ResNet是計算機視覺領域的流行架構。
去年3月,藍振忠在朋友圈廣發“英雄帖”,為公司招聘CEO,負責科研成果轉化,整合資源、把握市場、搞定客戶……
如今擔任這一職位的是醒辰,她曾就職于阿里巴巴集團,作為創始團隊成員參與籌建湖畔創研中心。
藍振忠可以更專心地做科研。他的朋友圈置頂著一張合照。照片里,一家四口笑容燦爛,家人一直是最重要的存在。工作之余,他熱愛運動,跑步、瑜伽、籃球、游泳……練瑜伽始自學生時代,“有助于放松心情,緩解壓力”。
對話“新青年”
10月左右嘗試上線AI心理健康服務電話
九千光年:您和團隊怎么想到開發語音大模型?過程中遇到的最大挑戰或難點是什么?
藍振忠:一開始我們做文字,但很快發現遠遠不夠,文字會損失很多信息,而且在心理咨詢中,很多人更傾向于通過電話交流而非打字。打字往往要求預先組織語言,這一過程本身就可能加重人的思考負擔,而在疲憊或情緒波動時,人會更渴望毫無顧忌地通過語言宣泄情緒。
去年開始,團隊中的七八個人組建項目組,開始訓練語音模型。如何獲取數據,怎么保證預訓練的穩定性,語音怎么調……都是問題。難度最大的,還是在于跟“大腦”的結合,就是文本模型如何轉到語音模型。此外,Lingo是內容生產方,要保證交互時的安全性,避免它輸出不當言語。
九千光年:除了心理咨詢,心辰Lingo還可以用于哪些場景?
藍振忠:它能為各個領域提供通用的基礎語音服務,比如日常銷售、教育培訓、醫療咨詢、智能設備交互、兒童陪伴等。10月左右,我們會嘗試上線AI心理健康服務電話。
AI就像一個智能樹洞
九千光年:人類的情感如此復雜,AI能兼具智商情商并給足情緒價值嗎?
藍振忠:你可以把AI看成一種能模擬世間萬物的工具,它在很多方面甚至已超越人類。只要提供足夠多的數據,AI就能進行無限的模仿學習。
《武林外傳》中不少臺詞有言外之意,我們曾試著拿其中一些句子去測試大模型理解中文隱喻的能力,結論是它基本能達到人類水平。
AI在提供情感支持方面還有獨特優勢,比如它擁有無限的耐心。人的傾聽往往需要消耗大量精力,AI可以不知疲倦地提供陪伴。
九千光年:是否存在一些場景,人需要的是真實的情感支持,如果此時提供AI,對方可能會感到失望?
藍振忠:確實在一些場合,人與人之間的情感交流無可替代。AI更適合的場景是,一個人想要獨處,或者有些煩惱不適合向他人傾訴。它就像一個智能樹洞,你可以單方面傾訴,也可以互動,從而獲得宣泄和慰藉。
小天背后有一整套評估和干預流程
九千光年:小天兩年前參加過快報的未來生活節,早期版本,它的部分回復話術還需要心理咨詢師的指導。如今它的背后還有人工嗎?
藍振忠:經過迭代,小天現在已是百分百的自主程序,接入心辰Lingo后還能語音、電話。今年截至目前,它已服務10萬注冊用戶,你可以在支付寶、微信,浙大、理工大學等高校App上找到它。
九千光年:找小天聊天的用戶中,是否有心理問題比較嚴重的來訪者,甚至有輕生傾向?這種情況,會怎么處理?
藍振忠:小天擅長的是心理陪伴和支持,它會隨時評估聊天的效果,再決定接下來引導的方向。當它發現可能有嚴重心理問題或精神障礙的來訪者,會建議對方轉入相關醫院診治;一旦測試到有輕生傾向,就會推給來訪者自殺干預熱線。如果對方多次表達,還會人工介入。我們有一整套評估和干預流程。
創業有點像劃著一艘漏水的船
九千光年:這幾年的創業經歷,您有哪些感悟可以分享?
藍振忠:我們常說,人天生追求秩序感,在缺乏秩序的環境中,會感到不安和不確定。創業的過程有點像劃著一艘漏水的船,只有劃得足夠快,才能安全抵達目的地。
讀博同樣伴隨著不確定性,但這種挑戰許多人能克服。創業則更為艱難,它一直在“燒錢”,這要求創業者學會在不斷變化的環境中尋找確定性。
九千光年:能否透露您接下來研究的重點?
藍振忠:還是“大腦”這塊吧,怎么去精準捕捉人類情感、用什么話術回復等。其實這也是一直以來的重點。
文 | 童蔚
攝影 | 陳中秋 海報 | 李前芳
VIEW MORE
@西湖邊的猴子,直面天命 >>
@AI殿堂“門童” >>
@AR眼鏡“孤泳者” >>
@人造衛星”腦力大師“ >>
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.