“大模型已經從早期階段的初期,進入早期階段的中期,不可能只在單點能力上改進了。”
文丨程曼祺
編輯丨宋瑋
今天(4 月 29 日)清晨,阿里巴巴更新通義千問(Qwen)系列最新一代基礎模型 Qwen3,并開源 8 個版本。
Qwen3 是中國的首個混合推理模型(hybird reasoning model),也是全球第一個開源的混合推理模型——即在同一個模型中融合了 “推理” 和 “非推理” 模式,能像人那樣根據不同問題選擇 “快、慢思考”。
Qwen3 旗艦模型,MoE(混合專家模型)模型 Qwen3-235B-A22B,以 2350 億總參數、220 億激活參數,在多項主要 Benchmark(測評指標)上超越了 6710 億總參數、370 億激活參數的 DeepSeek-R1 滿血版。更小的 MoE 模型 Qwen3-30B-A3B,使用時的激活參數僅為 30 億,不到之前 Qwen 系列純推理稠密模型 QwQ-32B 的 1/10,但效果更優。更小參數、更好性能,意味著開發者可以用更低部署和使用成本,得到更好效果。圖片來自通義千問官方博客。(注:MoE 模型每次使用時只會激活部分參數,使用效率更高,所以有總參數、激活參數兩個參數指標。)
Qwen3 發布前,我們訪談了阿里大模型研發一號位,阿里云 CTO 和通義實驗室負責人,周靖人。他也是阿里開源大模型的主要決策者。
迄今為止,Qwen 系列大模型已被累計下載 3 億次(綜合 Hugging Face、魔搭等社區數據)其中 2.5 億次是最近 7 個月新增的 ;基于 Qwen 的衍生模型數量超 10 萬個,為全球第一。
阿里開源 AI 模型,早于 ChatGPT 引爆這一輪 AI 熱潮。2022 年 11 月初,阿里上線開源模型分享平臺魔搭社區,一口氣開源了達摩院成立 5 年來研發的所有近 400 個模型。2023 年 8 月,阿里又決定開源 Qwen 系列大模型,目前已累計開源超 200 個模型。
在 2022 年底到 2023 年,開源大模型不是一個容易的選擇:開源意味著需要接受開發者和市場的反饋,也要接受各方測試,對能力要求非常高。周靖人和阿里大模型團隊選擇接受開源的檢驗。
這之后,Qwen 僅用 1 年多在全球開源模型中后來居上:在去年 10 月,Qwen 的衍生模型數量達到 8 萬多個,超越了更早開源的 Meta Llama 系列,此后持續領先。
三個開源模型系列 Qwen 系列、Llama 系列、Mistral 系列的衍生模型數變化。
蘋果據傳選擇 Qwen 成為中國的大模型合作伙伴,李飛飛團隊用 Qwen 來訓練超低成本推理模型,通用 Agent 產品 Manus 調用 Qwen 來做決策規劃,DeepSeek-R1 的部分小尺寸模型也用到了 Qwen 來訓練。
但相比在技術社區的影響力,Qwen 在泛商業界相對低調,幾次關鍵發布被 “搶頭條”。開發者調侃,Qwen 是大模型領域的 “汪峰”。
“這是什么意思呢 ?” 周靖人投來疑問的目光,他沒聽過這個玩笑。
周靖人戴著金絲眼鏡,語調缺乏起伏、語速也幾乎一致,平穩有如程序。3 小時的訪談中,他講得最多的是 “技術規律”。
我們問他,怎么考慮更新和發布模型的節奏競爭?他說:
“我們無法預知別人的發布節奏。研發這件事,想臨時調節奏也調不過來,不符合研發規律。”
聊起阿里集團 CEO 吳泳銘今年 2 月說 “阿里現在的首要目標是追求 AGI”,周靖人說:
“今天外界聽到吳泳銘宣布了什么,感覺阿里好像突然有個大轉變,其實不是。從技術發展規律來說,沒有前期積累不可能一蹴而就。”
開源如果做不到第一,意義將大打折扣,也可能失去閉源的商業機會。周靖人卻淡化這個選擇的壓力:
“從技術發展規律看,不開源反而風險更大,因為開源至少會追上閉源,甚至發展得更好。”
他有一些不同于多數人的觀點,講出來時也語調平淡、不帶色彩:
“其實 o1 談不上定義了新范式。讓模型學會思考,它不是一個范式,而是一種能力。”
周靖人在 2015 年從微軟加入阿里巴巴,在 iDST 和達摩院帶過前沿技術研發,也在螞蟻、淘寶做過實際業務落地。
以下是《晚點》對周靖人的訪談,他回顧了阿里開發大模型的過程,開源的關鍵決策,和他對當前大模型技術的思考。
“某一天的流量沒那么重要。大模型不是短期競爭”
晚點:現在外界對阿里有一個調侃,說你們是大模型領域的汪峰。
周靖人:這我不知道。什么意思呢?
晚點:指阿里的重磅發布常被 “搶了頭條”。先是春節更新基座模型 Qwen2.5-Max,被 DeepSeek 推理模型 R1 搶了風頭;后來 3 月發布推理模型 QwQ-32B ,又趕上大火的 Agent 產品 Manus 同天發布。
周靖人:某一天的流量其實沒那么重要。
晚點:真正重要的是什么?
周靖人:更前瞻性地思考,更篤定地堅持自己的技術路徑和節奏。
晚點:阿里通往 AGI 的路徑是什么?
周靖人:首先,我們的一個核心認知是,大模型發展和云體系的支撐不可分割。無論訓練還是推理,大模型的每一次突破,表面看是模型能力演進,背后其實是整個云計算和數據、工程平臺的全面配合和升級。
在模型能力上,大家現在討論最多的是推理模型。我們在繼續探索讓模型能更像人那樣去思考,未來甚至能自我反思、自我糾錯等。
多模態也是通向 AGI 的重要途徑。人的大腦也是有的部分處理文字,有的部分處理視覺、聲音。我們要讓大模型能理解并貫通各個模態。
我們也在探索新的學習機制,包括怎么能讓模型在線學習、持續學習和自學習(Self Learning)。(注:現在的模型訓練是 “離線學習”,每次升級需要重新做預訓練、更新版本。)
在提升云體系的性能和效率上,我們會加強云和模型的軟硬一體聯合優化。尤其在今年,工程能力、整個云系統結合 AI 的性能和效率會變成核心競爭力。
晚點:同時做這么多事,不會失焦嗎?
周靖人:大模型發展到現在,已經從早期階段的初期,進入了早期階段的中期,不可能只在單點能力上改進了。因為真正的通用人工智能,就是需要多模態、工具使用、Agent 支持和持續學習等多種能力,等(某個方向)跑出來再做是來不及的。不光我們,頭部公司都會在多個方向上提前預研。
晚點:剛發布的 Qwen3 體現了阿里在哪些方向的布局?
周靖人: Qwen3 是一個混合推理模型,它同時提供了 “推理模式” 和 “非推理模式”,前者用于復雜邏輯推理、數學和編程,后者能處理日常指令和高效對話。混合推理模型今后是大模型發展的重要趨勢。
晚點:為什么會成為趨勢?混合推理模型的好處是什么?
周靖人:它能更好平衡性能和成本。在 “推理模式” 下,模型會執行分解問題、逐步推導、驗證等中間步驟,給出 “深思熟慮” 的答案;在 “非推理模式” 下,則可以快速遵循指令生成答案。
Qwen3 還有一個 “思考預算” 設置——開發者可以自己設定深度思考的最大 token 消耗,這能更好滿足不同開發者對性能和成本的需求。
晚點:那么這么做的代價和難點是?
周靖人:混合推理模型是通過推理和非推理的混合訓練做到的,這需要模型學習兩種不同的輸出分布,很考驗訓練策略。所以設計和訓練混合推理模型,遠比做單純的推理模型要難。
Qwen3 在后訓練階段,也是兩種模式混合訓練,相當于合并了推理模型 QwQ 系列和指令微調模型 Qwen2.5-instruct 系列,同時將它們的優勢并合二為一。
晚點:阿里現在怎么把握模型更新節奏?發布節奏和聲量也是現在各公司的競爭點,比如 OpenAI 有幾次更新都是趕在 Google 的重磅發布之前。
周靖人:肯定會有這方面的考慮,但最終不是靠發布時宣傳得怎么樣,最終還是看開發者和市場反饋。
再說我們也無法預知別人的發布節奏。研發這件事,想臨時調節奏也調不過來,不符合研發規律。
晚點:Qwen 系列下載量在全球僅次于 Llama,同時是衍生模型數量最多的開源模型,但市場對此認知不夠,這會讓阿里困擾嗎?你們想了什么方法來增加技術影響力?
周靖人:其實通義千問的傳播是不錯的。核心還是在于開源的模型要足夠強,否則其他方式都沒什么用。
晚點:通義千問何時會有一個真正出圈的、讓更多人 eye-opening 的進展?類似 Sora、DeepSeek-R1 曾引起的關注。
周靖人:通義千問接下來會有很多亮點,但能否讓大家 eye-opening,這要看大家。我覺得有時我們太關注此時此刻,誰又比誰強一點點。但長遠看,如果真認為 AGI 是最終目的地,當前的你追我趕都只是階段性過程。
更重要的是,要知道自己在正確的方向上,以及要持續、長期創新。所以不用太糾結,今天或明天,是不是比別人又多了一個身位。
晚點:阿里管理層,比如吳泳銘,他就不在意通義千問此時此刻是否優于別人嗎?
周靖人:我們肯定要保持在第一梯隊。我們也追求每一代模型發布時,都有技術突破,能代表領域當前最高水平。
同時我們也多次內部強調,這不是一個短期競爭,不是靠一時把弦繃多緊,而是要長期創新。整個科技發展需要定力,也希望給行業一些時間和耐心。
“沒有前期積累,此時此刻談不上以 AI 為中心”
晚點:在今年 2 月的阿里財報會議上,阿里集團和阿里云 CEO 吳泳銘說 “阿里現在的首要目標是追求 AGI,持續開發拓展智能邊界的大模型”。作為阿里大模型負責人,你是何時明確最大目標是 AGI 的?
周靖人:今天外界聽到吳泳銘宣布了什么,感覺阿里好像突然有個大的轉變,其實不是這樣的。從技術發展規律來說,沒有前期積累不可能一蹴而就。
阿里對 AI 投入非常早,Transformer 之前,就有 iDST(阿里數據科學與技術研究院,2014 年成立)和達摩院(2017 年成立)做 AI 前沿研究。Transformer 之后,我們從 2019 年開始做多模態 MoE(混合專家模型)模型,2021 年發布了萬億參數的 MoE 多模態大模型 M6。
Transformer 的核心在于預訓練。它一開始并不帶著一個特殊的具體任務,而是通過大量數據訓練一個能適配多種任務的模型。
這是機器學習的一大突破。因為以前的模型要針對一個具體問題選擇數據、做標注,模型能力不好遷移,往往是一個場景就要做一個模型。比如人臉識別就不好遷移到物體識別上。我們就是看中了預訓練的泛化性,所以較早投入了這個方向。
晚點:最開始 Google 提出 Transformer 是處理 NLP(自然語言處理)問題,后來 OpenAI 做 GPT 也是先在語言上取得突破。而阿里是先重點做了多模態大模型,為什么是這樣的選擇?
周靖人:當時我也在負責淘寶的搜索和推薦。那時我們就意識到,對一個商品的理解,不單單是理解圖片或文字描述、用戶評論和各種點擊、瀏覽數據。更精準的理解應該是一個多模態的全方位理解。
晚點:所以當時更多是為電商場景服務,還不是拓展智能邊界?
周靖人:電商是目標場景之一。另一方面,從 AGI 的演進邏輯看,多模態也不可或缺,AI 要能使用工具,甚至未來能在真實物理世界活動,都需要多模態能力。
這個例子也很好說明了,阿里很早就是一個技術公司。淘寶的成功,不僅是把貨賣到線上,雙十一的高并發、更精準的商品推薦都需要大量技術支持。
2009 年,阿里也開始做云計算,2014 年又開始基于云做一系列 AI 平臺、數據平臺,比如 MaxCompute 等。
沒有這些前期積累,此時此刻就談不上以 AI 為中心。
晚點:從 2019 年開始做預訓練模型到 2023 年的大模型熱潮,阿里對大模型的認知和投入經歷了什么變化?
周靖人:2022 年秋天 ChatGPT 發布前,阿里云最早在行業里提出了 MaaS(Model as a Service),模型即服務。那時大模型還沒火,所以大家聽起來沒什么感覺。
但當時我們已經看到,模型是新時代重要的生產元素。上一代云計算,在 IaaS (基礎設施即服務)層是計算、存儲、網絡等計算元素,再往上是 PaaS (平臺即服務)層的數據平臺、機器學習平臺等生產元素。而模型融合了數據和計算,是更高階的產物。這里面有一個從 IaaS 到 PaaS 再到 MaaS 的路徑。
另一個重要的動作是開源。我們做開源也很早,要追溯到 2022 年推出開源模型分享社區 “魔搭”,之后在 2023 年 8 月決定開源通義千問大模型系列。當時關注的人也不多,但今天大家已經更清楚看到了開源的價值。
晚點:開源之于阿里是一種競爭策略嗎?比如你在微軟的前同事沈向洋曾說:第一名總是閉源,第二名才開源。
周靖人:開源成功的例子也很多,比如上一代大數據體系,開源的 Spark、Flink 成為了主流。
我們開源大模型是基于兩個判斷:一是模型會成為核心生產元素,開源更利于它普及,能推動整個產業快速發展;二是開源已成為大模型的重要創新驅動力。
這種創新來自多個方面:一是,開源能讓全球更多優秀人才參與技術創新,一起推動技術發展;同時,開源會降低企業使用模型的門檻,也因為開源免費,企業可以沒有顧慮地嘗試業務集成,這也推動更多企業內的開發者參與開源建設。所以社區開發者的技術創新和企業的反饋都會幫助建設技術生態、促進技術演進。
這是阿里做魔搭社區和開源通義千問的一貫邏輯,不是到了某個時間點才拍腦袋的決定。最初外界也不是那么理解,魔搭剛上線時默默無聞,但今天已成為中國最大的模型社區。
晚點:萬一開源沒做好,反而失去閉源的商業機會怎么辦?當時討論開源時,阿里高層里有哪些討論和顧慮?
周靖人:你可能想聽到一些激烈討論的故事,但其實并沒有。
阿里的愿景是 “讓天下沒有難做的生意”;云的初心是讓企業能在云上高效實現技術和業務創新;開源大模型是希望企業能更容易地把大模型用到業務里。所以這 3 個愿景高度一致、一脈相承。
同時從技術發展規律看,不開源反而風險更大,因為開源技術至少會追上閉源,甚至往往發展得更快、更強,Android、Spark 都是例子。
晚點:什么時候覺得通義千問的開源生態算是跑出來了?
周靖人:一是看開發者的選擇,去年我們占 Hugging Face 的下載量是 30% 多,基于通義千問的衍生模型數量也是最多的,已經超過 10 萬個,這只追蹤了反饋到開發者社區的數量,實際比這要多。
二是看性能指標,比如我們之前發的 QwQ-32B 模型,在 LeCun 做的 LiveBench 上超過了 R1,是最好的開源推理模型,這還不是 QwQ 的滿血版。(注:LiveBench 從數學、推理、編程、語言理解、指令遵循和數據分析等多個復雜維度對模型進行評估;由圖靈獎得主、Meta AI 首席科學家 Yann LeCun 領導編制。)
通義千問事實上是全世界最好、最全、使用最廣泛的開源模型,這件事市場的認知還蠻統一的。
晚點:阿里通義千問系列比 Meta Llama 開源更晚,但反超了對方,Llama 的失誤是什么,或者說你們可能做對了什么?
周靖人:我們很注重開發者需求,開源不是把代碼或模型權重開出來就完了,是要真正讓開發者能用起來。
所以每次開源,從什么角度開、設哪些尺寸,都要全面權衡不同開發者在成本和能力上的不同需求。比如最近通義萬相開源了可以在消費級顯卡上跑的版本,就是為了覆蓋更廣泛的開發者,因為很多人不見得有龐大的服務器。真正的開源,是讓大家方便使用,積極貢獻。
晚點:這次 Qwen3 一共開源了 8 個版本,其中 6 個是稠密模型,參數從 0.6B 到 32B,2 個是 MoE(混合專家系統)模型,一個 30B(激活 3B),一個 235B(激活 22B)。為什么是這個尺寸組合?
周靖人:其實就是盡量滿足從個人到企業的不同開發者的需求。比如手機端側可以用 4B,電腦或汽車端側推薦 8B, 32B 是企業最喜歡的尺寸,能商用大規模部署。MoE 模型只需要激活很少的參數,就能獲得很強的性能,可以提供更好的性價比。
晚點:這次有開源 Infra 層的新配套工具,幫開發者更好使用 Qwen 嗎?
周靖人:Qwen3 第一時間支持了 vLLM 和 SGLang 這兩個主流的推理優化開源框架。Qwen3 也原生支持 MCP(Model Context Protocol,由 Anthropic 開發的模型上下文協議)。配合我們今年 1 月開源的 Qwen-Agent 框架,Agent 開發者可通過 MCP 或其它方法集成工具,快速開發智能體。
晚點:想求證一個情況,有消息稱,在 DeepSeek-R1 發布后,有 20% 以上的通義千問模型開發者轉而使用 DeepSeek 模型。這種遷移對你們是多大的挑戰?Qwen3 能扭轉這種現象嗎?
周靖人:我們沒有觀察到明顯的遷移。而且開發者試用不同模型很正常,開源社區本來就不能排他,每個人會根據自身需求做選擇。我們相信,只要通義千問的模型能力持續進步,開發者就會愿意過來。
晚點:行業內認為 o1 和 R1 開啟了新范式。你如何看待它們的價值?
周靖人:其實 o1 談不上定義了新范式。讓模型學會思考,它不是一個范式,而是一種能力。就像多模態也不是范式,這些都是正常的模型演進。
o1 里的很多東西,比如 CoT(思維鏈)、強化學習(RL)很早就有。你甚至可以說 everything is RL,包括每一次模型迭代,就是在訓新一版模型時加了上一版的反饋。
范式是一個很重的詞。過去真正可以稱得上范式變化的,我認為是整個訓練基礎模型的方法。
晚點:你覺得今年在大模型領域,相對確定的進展是什么?
周靖人:有兩個主線:一是模型能力上,會繼續在類人思考和多模態上有提升;二是模型和底層云計算系統會更深度結合,能同時提升訓練和推理效率,讓模型更好用、更普及。
晚點:這個過程會有什么瓶頸嗎?雖然用強化學習做推理模型被認為有很大潛力,但其基礎是一個好的預訓練模型,比如阿里的推理模型 QwQ-32B 是基于 Qwen2.5-32B,R1 是基于 DeepSeek-v3。而最近 X.ai 發布的預訓練模型 Grok 3, 用 20 萬張卡帶來的提升只有 1.2%(在 Chatbot Arena 上比之前的第一名的總分提升)。當預訓練的 Scaling Laws 放緩時,在此基礎上做推理模型的提升還能持續多久?
周靖人:推理模型確實都依賴于強大的基座模型,這是共識。但不能簡單說預訓練本身的 Scaling Laws 到頭了。
如果只看文本,數據的上限可以看到,但多模態數據,比如大量視覺數據還沒被用到。同時,預訓練和后訓練乃至推理的邊界正在模糊,整合這些階段也有可能帶來提升。在學習方式上,除了離線訓練,大家也都在探索在線學習、持續學習等。
所以,無論是看數據、訓練方式還是學習機制,基座模型的能力都有提升空間。
“云和大模型有同樣的優先級,要齊頭并進”
晚點:你現在既是阿里云 CTO 也是通義實驗室負責人,要同時保證阿里云和通義千問大模型處于領先位置,兩件事的優先級哪個更高?
周靖人:優先級是一樣的,因為二者拆不開,模型是云服務的重要部分;模型要有高性價比,又需要云體系支持。兩方面要齊頭并進。
晚點:如果通義千問大模型不能持續保持領先,對本來處于領先的阿里云業務是否也有不利影響?
周靖人:這是雙向影響的。如果模型不強,云的智能化服務就會打折;而如果模型足夠強、云能力跟不上,就沒法提供高性價比的服務。
在 AI 時代,客戶要的不是單一的模型或云的能力,而是強模型 + 低成本 + 高彈性的綜合體驗。
反映到技術上,過去訓練和推理是分開考慮的,但現在訓練時就要考慮推理效率,推理時也要想模型好不好訓、能不能收斂。這是一個硬幣的兩面,要整體協同優化。
晚點:DeepSeek 就是基于自己的 GPU 集群做了模型訓練和推理的極致 Infra 優化。它有可能成為第三方 AI 云玩家嗎?
周靖人:它看起來有算力、有 Infra 層、有模型,但它不構成一個完整的云服務。
云服務要具備極致彈性并保證各種 SLA(Service Level Agreement,服務級別協議)——比如有些調用需要極低的延遲,另一些調用需要更高的吞吐和更低的成本,另外也需要穩定安全——這才是真正的企業級云服務。不能用著用著就宕機了或突然延時很高,這樣企業無法把重要業務放上去。
晚點:當你看到 DeepSeek Infra 開源周最后的總結,稱他們基于自己算力提供 API 服務的成本利潤率達到了 545%(換算成毛利為 85%),感受是什么?
周靖人:他們的系統優化的確非常出色,但這是一種理想化的計算方式。不用把它當成云的邏輯,因為真正提供云服務時,不能在系統繁忙時段選擇性地服務客戶,或降低繁忙時段的服務質量。
完整的 MaaS 服務也不會只有一個模型,而是兼容多種模型,所以阿里云一開始就支持 DeepSeek。云的邏輯是對不同模型都做好性能優化,把選擇權留給客戶。
晚點:在新的 AI 云機會中,阿里云的競爭對手實際是誰?
周靖人:國內我們是引領者,國際上的對手很多,AWS、Azure、GCP(Google 云服務) 都值得我們學習。
晚點:激進投入 AI 云的字節火山引擎不是嗎?
周靖人:火山這幾年發展很快,我們歡迎大家一起來推動 AI 產業的發展。這個市場空間還很大。
晚點:阿里近期宣布了 3800 億的 AI 和云計算基礎設施投入計劃。不過從基礎層投入到應用繁榮有一個周期,你們會擔心應用到時對 AI 云沒這么大需求嗎?
周靖人:AI 應用的指數級增長趨勢很明顯,過去一年阿里云 MaaS 服務增速很快,甚至到了供不應求的狀態。
晚點:除了芯片數量、計算效率等,你覺得在 AI 基礎層的投入上,還有哪些被忽略的方面?
周靖人:未來供電會是一個挑戰。所以 energy-aware optimization(面向節能的優化)也會成為一個技術方向,就是找到方法降低每個 token 的能耗。
晚點:阿里已經有什么準備了嗎?
周靖人:比如建設智算中心,除了根據用戶的業務需求綜合考慮建設成本和服務延時,也會考慮附近的自然能源供給、氣候條件等。這些都是云基礎體系的一部分,我們這么多年積累的這些 Know-How 在 AI 時代越發重要。
“科技研發沒有捷徑”
晚點:頭部大公司面對 AI 機會的共同選擇是從計算到模型層都做,從語言、推理到多模態,到更前沿的自主學習等技術方向都探索。但也有人認為 DeepSeek 那樣更聚焦的方式更能明確團隊重點——比如 DeepSeek 之前也做多模態,但去年下半年更收束到語言和推理上。對比這種更聚焦的方式,阿里多方向布局的過程中怎么解決內部資源分配問題?
周靖人:科技創新本身就需要多嘗試,但也不是無厘頭地什么都試。我們會先做小規模實驗,驗證方向對不對,再看是否加大投入。
研發過程本身是一個 pipeline(流水線),有的方向是預研,有的在收尾,有不同節奏。今天的 AI 研發是一個從高效實驗到訓練最后到產出的完整體系。
晚點:在眾多 pipeline 中,出現什么信號時,可以判斷這是一個有很大潛力的方向?
周靖人:你可能想聽一個大的 secret,但其實沒什么訣竅和捷徑。一般都是先有假設,再做小規模實驗,得到初步的證據,然后是更大規模的實驗。我們內部有科學的評估方法和數據支持,幫助好的方向脫穎而出。這是能持續做出成績的組織的共性。
晚點:怎樣能有高質量的假設?怎樣提升同時進行多個實驗的效率?
周靖人:一是方向性的判斷,這來自優秀人才的技術素質;二是科學的驗證方法,要看實驗和數據支持,不是靠一個人拍腦袋。
晚點:假如我是一名阿里通義研究人員,我有一個想法需要用 100 張卡做實驗,我如何能及時、順暢地獲得想要的資源?
周靖人:我們有快速實驗的平臺,支持用少量資源試錯。一上來就想在超大規模模型上中大獎,這是不可能的。
晚點:你們的眾多 pipeline 里,最近有哪些已有較大進展了嗎?
周靖人:最近大家最關注的還是語言和推理。我們在多模態 VL(視覺語言模型)、音頻等模型等方向都有很多積累,都在 Qwen3 上有了明顯提升。
晚點:研發的本源是人才,阿里的部分技術骨干被字節等公司高薪聘請,你們怎么應對?
周靖人:人才流動很正常。更重要的是團隊能堅持一個初心,一起做出出色的工作,這是凝聚力的來源。
同時現在模型研發不僅是模型、算法層的創新,而是個長期系統工程,要有堅定投入的耐心,今天做、明天停,對團隊影響很大。阿里在通義千問上的投入是非常堅定的。
晚點:我們了解到,2024 年,通義給所有研究員普漲了一級職級,并全面加薪。這是對人才市場變化的回應嗎?
周靖人:我們一直有激勵團隊。薪酬匹配是需要的,但高薪不是唯一手段。
晚點:你 2023 年曾告訴我們,AI 時代,科研、技術、產品要更緊密結合,沒法像以前那樣分那么開。為什么阿里去年下半年把大模型的 2C 產品從阿里云分到了吳嘉管理的阿里信息智能事業群?
周靖人:這不是分開,而是更專業化。通義專注技術研發,2C 產品團隊專注用戶體驗和運營,分工更清晰,但協作很緊密。比如夸克也在用最新的通義千問模型。
晚點:你現在和吳嘉怎么配合?
周靖人:我們日常討論很頻繁。通義的重要目標之一是支持好夸克等產品,這些產品也能給我們模型研發一些反饋。
晚點:為什么通義要自己做 Qwen Chat 這個對話產品?
周靖人:Qwen Chat 不會有太多產品設計,它更多是讓全球開發者能方便體驗通義千問的最新模型。
晚點:你很冷靜,從 AI 熱潮以來,有什么事會讓你難得的興奮嗎?
周靖人:一是技術的快速發展本身,二是我們過去的堅持能讓我們有一個好的進展。這對每一個技術工作者來說都是非常幸運的事。
晚點:那有什么事讓你焦慮嗎?比如在你們的強項多模態上,你最初看到 Sora 時焦慮嗎?
周靖人:沒有。為什么焦慮?ChatGPT 剛出來時行業很焦慮,后來國內模型競爭起來了,就更理智了。Sora 也是一樣,我們最近開源的視頻生成模型萬相 2.1 和 Sora 對比,外界評價也是互有勝負。
晚點:不焦慮的前提是你們保持在第一梯隊,阿里怎么知道自己一直在大模型第一梯隊?
周靖人:還是看市場反饋。自己說自己多強,意義不大。
晚點:有什么長期保持在第一梯隊的方法嗎?現在大家都是各領風騷 30 天。
周靖人:從每個組織內部看,今天每一代模型的提升,都是基于前一代的能力,優勢是逐漸積累、代代疊加的。
看起來各領風騷,是因為科技發展的規律就是你追我趕,大家相互啟發和學習,這對研究者來說很自然。所以我也經常和團隊說,不用那么在意一時的流量,科技發展都是一步步來的。
題圖來源:阿里巴巴
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.