作者| 金旺
來源| 對話科技行者
配圖| 關珊
2010年,剛從微軟研究院硅谷實驗室轉戰微軟亞洲研究院沒多久的張霖濤博士搞起了人工智能。
當時人工智能還未闖入商用市場,張霖濤是在做搜索技術研究時發現:那時的搜索,大部分時間和計算量都花在了機器學習上,這讓張霖濤對人工智能技術產生了興趣。
那時的機器學習還是以傳統的決策樹,支持向量機和簡單的神經網絡為主,以深度神經網絡為基礎的人工智能技術浪潮還是后來的事兒。
張霖濤就這樣在微軟亞洲研究院一邊做分布式系統、云計算,一邊研究人工智能系統,一晃就是十年。
在這十年里,張霖濤看到了人工智能的技術變遷,以及人工智能創業浪潮的風起云涌,微軟亞洲研究院也有不少專家選擇了走出來創業,其中一些團隊還成長成了國內第一批人工智能獨角獸企業。
張霖濤在與這些前同事交流時越來越發現,數據正在成為人工智能產業落地的關鍵,尤其是在落地到實際場景過程中,數據流通、數據安全正在成為一個重要的社會議題,這讓他與當時希望通過隱私計算和人工智能技術深挖數據價值的翼方健數有了交集。
張霖濤在2020年底走出微軟亞洲研究院,加入翼方健數、成了翼方健數的首席科學家。
對于張霖濤來說,他的研究方向沒有發生太大的變化,依然是研究分布式系統和人工智能技術,但彼時的他需要更多去考慮這些技術在產業中的應用問題。
對于翼方健數來說,作為當時國內隱私計算四小龍的他們,懷揣著構建并運營“數據和計算互聯網(IoDC)”的愿景,正在闖入另一波技術大潮。
01 隱私計算的路線之爭
加入翼方健數之前,張霖濤是微軟亞洲研究院首席研究員和全球合伙人,領導著微軟亞洲研究院智能云與端研究組從事系統與網絡方面的研究,翼方健數則是由陳恂博士、羅震博士等人在2016年一手創辦的專注于數據流通和人工智能的創業團隊。
到2020年時,翼方健數已經小有名氣,和螞蟻集團、微眾銀行、華清交控并稱國內隱私計算四小龍。
隱私計算概念在國內的興起可以追溯到中科院李鳳華等人在2016年發表的《隱私計算研究范疇及發展趨勢》論文,翼方健數作為這項技術最早的倡導者和研究者,創業之初就將隱私計算相關技術應用到了數據流通中。
為什么會想到做數據流通這一看似抽象的工作?
這是因為翼方健數創始成員中不少人來自廣告行業,他們自是知道數據流通和聯合應用后能發揮的價值,也意識到個人隱私保護的發展趨勢,為了讓數據在其他行業中同樣在保護個人隱私及數據資產安全的前提下釋放價值,于是就有了后來的翼方健數。
彼時,其他隱私計算企業更為關注金融行業,而翼方健數以門檻更高的醫療領域作為切入點。
實際上,這兩大領域都有大量的數據積累并且存在大量的潛在數據價值,而數據要在這兩個領域發揮價值,又各有各的問題:
金融行業存在的問題是數據濫用嚴重,醫療行業存在的問題則是數據具有碎片化、非標準化、多模態的特征,且存在數據量巨大、敏感等問題。
流通難破壁,價值難釋放也就成了醫療行業數據流通的難題。
2016年,國家衛計委健康醫療大數據應用及產業園建設國家試點工程啟動推進會在北京召開,現場公布了國家健康醫療大數據試點城市,鼓勵試點城市加快大數據中心建設,推進技術融合、業務融合、數據融合。
翼方健數有幸參與其中,并見證了其中成果。
醫療數據是極為敏感的數據,為了保證醫療體系和國民隱私安全,“數據不出院”一直以來都是醫院的鐵律,作為這一健康醫療數據應用開放平臺的搭建者,翼方健數當時需要做的工作是通過技術手段,研發一套高效的數據脫敏、數據治理、數據授權體系,保證在平臺上拿到授權的使用者在不下載數據的前提下可以對這些脫敏的醫療數據進行科學研究和價值挖掘。
這一健康醫療數據應用開發平臺,實際上就是翼方健數2019年對外發布的翼數坊(XDP)的前身。
在這一項目中,為了保證數據安全,翼方健數用到的是可信計算中的沙箱計算技術。
不過,翼方健數研究的隱私計算技術并不只有沙箱計算,包括可信執行環境、多方安全計算、聯邦學習在內的主流隱私計算技術,翼方健數都有研究,并于2022年正式開源聯邦學習和多方安全計算技術。
實際上,就在張霖濤加入翼方健數的2020年,隱私計算領域還曾掀起過一場路線之爭。
2020年,隱私計算領域主要分為三大流派,分別是多方安全計算陣營、聯邦學習陣營和可信執行環境陣營,三大陣營在這一年展開了激烈的競爭。
據張霖濤向科技行者回憶,“翼方健數當時沒有站邊,我們當時由于整個平臺從存儲、計算、傳輸在內的各方面都需要做一些控制,并且要支持客戶的各種應用,所以各種技術在平臺上都有支持。有人覺得我們沒有聯邦學習和多方安全計算技術,實際上,我們在這些方面有很多年的積累。”
之所以選擇“不站邊”,是因為翼方健數團隊觀察到,這些技術單一來看很難解決所有問題。
例如,聯邦學習是以機器學習為基礎,更適合解決人工智能問題,如果僅僅是做一個查詢,聯邦學習就不再是最優解;
多方安全計算雖然有理論安全保證,但在實際應用中效率很低,只能應用于一些特殊場景,效率高又通用的可信執行環境需要硬件支持,在很多場合不能落地。
翼方健數的愿景是要構建一個數據和計算互聯網,作為一個平臺的建設者,就意味著他們對技術有著更強的包容性。
也是由于逐漸意識到了單一技術路線存在的問題,互為補充、協同發展后來也逐漸成了隱私計算領域的共識。
不過,對于翼方健數來說,張霖濤在這一年的加入,成了翼方健數加碼人工智能技術的關鍵轉折點。
02 用AI讓數據流通
構建并運營“數據和計算互聯網(IoDC)”,這是翼方健數在2016年成立之初就定下的企業愿景。
為什么會有IoDC這樣一個概念?
這是因為,翼方健數團隊的幾位創始人觀察到,數據和算力在未來一定會以網狀結構呈現。
以醫院的數據為例,每個醫院一定不會允許自己的數據離開醫院匯總到一個地方開放共享,醫療數據一定會分布在全國各地,為了將這些分散的醫療數據用起來,就需要構建一張網——數據互聯網。
算力也是同樣的邏輯。
于是,數據流通就成了一個超大規模的智能系統問題。
張霖濤早年間在微軟亞洲研究院主要從事的有兩方面研究工作,一方面是大規模分布式系統,另一方面是人工智能技術,這兩方面剛好是當時翼方健數所需要的能力。
張霖濤告訴科技行者,“翼方健數過去做的并不是單一技術,而是要賦能一個新的應用場景。所以需要搭建一個涵蓋存儲、計算、網絡傳輸一系列數據安全保護技術的數據流通平臺,并要通過人工智能技術解決價值獲取的問題。”
實際上,彼時的翼方健數在商業項目中已經接觸到了不少“數據擁有者”,面對這些“數據擁有者”,翼方健數經常被問到的一個問題是:
“你們團隊有沒有人工智能技術,能否通過人工智能技術為我們解決實際的業務問題?”
翼方健數深知自身或者任何一家企業都無法組建一個這么龐大的團隊去服務所有行業、所有客戶、所有業務需要的人工智能場景,因此,他們希望能夠找到并解決這之中的核心痛點,實現供需匹配與高效協作,衍生出活躍的人工智能生態。
這一痛點正是需求方企業在與人工智能技術公司合作時,存在一個“安全可信”的問題。
例如,翼方健數就曾遇到過一個生物醫藥領域的客戶,這家公司擁有大量的生物分子信息,他們想知道這些生物分子有沒有藥效、是否可以被研制成藥品,但又不愿意將這些生物分子信息直接交到人工智能企業手中,畢竟,如果其中有一個生物分子可以被做成藥品,那將是擁有數十億美元價值的信息;
與此同時,另外一家人工智能公司擁有一種專門判斷生物分子是否有藥效的AI模型,但他們也不愿意直接將他們的AI模型提供給醫藥企業,因為這家公司在這一垂類AI模型的訓練、營銷上已經花費了高昂的成本,如果這一模型被泄露、濫用,那將是無可挽回的損失。
于是,張霖濤帶領的團隊在2021年年中立項了一個人工智能新項目,這個項目的目標是構建一個可以幫助“數據擁有者”和人工智能技術方案廠商能夠互相找到對方的平臺,翼方健數團隊要做的是通過包含隱私計算在內的全棧技術實現數據安全流通,釋放更多數據和算法的價值。
這一人工智能項目研發的就是后來的攬睿星舟AI服務平臺,這一平臺最終在2022年10月正式對外發布。
巧合的是,2022年11月,OpenAI對外發布的ChatGPT為人工智能技術發展指明了一條新路徑,新一輪人工智能技術革命就這樣在所有人都毫無準備的情況下爆發。
由于提前一年加強人工智能技術研發,并發布了攬睿星舟AI服務平臺,翼方健數與新一輪人工智能技術革命不期而遇,乘上了這陣東風。
03 向大模型借東風
2022年年底,生成式AI技術帶來了新一波人工智能浪潮,而生成式AI實則是一種“暴力美學”,帶來的是大數據、大算力、大模型的超高需求。
翼方健數很早就開始做數據流通,關注數據價值,但在生成式AI這波浪潮席卷全球后,不少大算力、大模型的需求也涌入到了攬睿星舟AI服務平臺上。
尤其是在ChatGPT和StableDiffusion發布后,張霖濤能夠真切地感受到,“很多用戶來攬睿星舟平臺上的目標就是尋求算力資源,來做文生圖的應用。這樣的需求每天都在發生。”
于是,翼方健數的“算力互聯網”搭建和運營工作也從技術研發進入到產品化和商業化階段。
在攬睿星舟AI服務平臺發布后,翼方健數的團隊又繼續在算力和大模型兩方面投入研發:
針對AI開發者和應用使用者推出一站式AI訓推平臺,提供有性價比的GPU算力,開箱即用的AI應用、工具、數據集、模型;
針對大模型應用開發者提供一站式大模型應用開發方法、算力與環境;
針對大模型企業或大模型需求方提供安全、靈活的流通解決方案;
針對算力設施運營方提供面向自有客戶的算力管理與調度能力,提升運營運維效率的同時,最大化算力利用率。
和數據流通邏輯一樣,大模型流通平臺解決的同樣是供需關系問題,以及借由隱私計算解決中間存在的安全和信任問題。
算力流通平臺則是應需而生,解決碎片化算力需求供應問題的一個重要平臺。而應用開發平臺則是為滿足應用開發者快速上手使用AI能力服務自己的應用而搭建的平臺。
張霖濤告訴科技行者,“我們當時觀察到,每個團隊對算力需求有很大的不同,除了幾家做基礎大模型訓練的廠商外,還有很多是高校團隊要跑人工智能項目,或者是其他中小型團隊在做人工智能應用,這些團隊更需要的是低成本、高動態的算力。”
“我們一開始是和云廠商合作,從他們那里找合適的算力資源,后來我們發現國內很多視頻廠商、高校,智算中心都會有閑置算力,我們通過在平臺上注入異構計算、隱私計算、算力調度能力,將這些閑置算力連接成網,提供給真正需要的人。”
也是在做算力流通平臺時,張霖濤再次認識到了 NVIDIA 在這波大模型浪潮中的推動作用。
早在做隱私計算時,由于翼方健數當時也在研究聯邦學習,就已經開始接觸 NVIDIA,“實際上,NVIDIA 是所有做人工智能的團隊都繞不開的一家企業,后來到大模型時代,從我們自營平臺的數據來看,目前 NVIDIA 的顯卡依舊更受市場消費者青睞,尤其 NVIDIA 顯卡背后還有著一個完善的生態。”
在大模型時代滾滾向前的車輪下,直到如今,在翼方健數的算力流通平臺上,需求量最高的還是 NVIDIA 的顯卡。
對于翼方健數來說,大模型時代的到來,驗證了他們數據和計算互聯網愿景的正確性,也讓他們更堅定了做數據和計算互聯網的決心。
就在去年8月,翼方健數聯合華通智研院與包括青島、包頭、銀川、成都、無錫、鹽城在內的33個省市成立了“公共數據運營全國統一大市場”聯盟,加強在公共數據運營上的投入。
無論是就數據、算力、算法三要素全域流通而言,還是就翼方健數的IoDC定位而言,公共數據運營都將至關重要。
就張霖濤而言,他是一個人工智能樂天派,他深信,“我們正在見證一個嶄新的人工智能時代的到來。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.