99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

通義千問 Qwen3 發布,對話阿里周靖人

0
分享至



“大模型已經從早期階段的初期,進入早期階段的中期,不可能只在單點能力上改進了。”

程曼祺

編輯宋瑋

今天(4 月 29 日)清晨,阿里巴巴更新通義千問(Qwen)系列最新一代基礎模型 Qwen3,并開源 8 個版本。

Qwen3 是中國的首個混合推理模型(hybird reasoning model),也是全球第一個開源的混合推理模型——即在同一個模型中融合了 “推理” 和 “非推理” 模式,能像人那樣根據不同問題選擇 “快、慢思考”。



Qwen3 旗艦模型,MoE(混合專家模型)模型 Qwen3-235B-A22B,以 2350 億總參數、220 億激活參數,在多項主要 Benchmark(測評指標)上超越了 6710 億總參數、370 億激活參數的 DeepSeek-R1 滿血版。更小的 MoE 模型 Qwen3-30B-A3B,使用時的激活參數僅為 30 億,不到之前 Qwen 系列純推理稠密模型 QwQ-32B 的 1/10,但效果更優。更小參數、更好性能,意味著開發者可以用更低部署和使用成本,得到更好效果。圖片來自通義千問官方博客。(注:MoE 模型每次使用時只會激活部分參數,使用效率更高,所以有總參數、激活參數兩個參數指標。)

Qwen3 發布前,我們訪談了阿里大模型研發一號位,阿里云 CTO 和通義實驗室負責人,周靖人。他也是阿里開源大模型的主要決策者。

迄今為止,Qwen 系列大模型已被累計下載 3 億次(綜合 Hugging Face、魔搭等社區數據)其中 2.5 億次是最近 7 個月新增的 ;基于 Qwen 的衍生模型數量超 10 萬個,為全球第一。

阿里開源 AI 模型,早于 ChatGPT 引爆這一輪 AI 熱潮。2022 年 11 月初,阿里上線開源模型分享平臺魔搭社區,一口氣開源了達摩院成立 5 年來研發的所有近 400 個模型。2023 年 8 月,阿里又決定開源 Qwen 系列大模型,目前已累計開源超 200 個模型。

在 2022 年底到 2023 年,開源大模型不是一個容易的選擇:開源意味著需要接受開發者和市場的反饋,也要接受各方測試,對能力要求非常高。周靖人和阿里大模型團隊選擇接受開源的檢驗。

這之后,Qwen 僅用 1 年多在全球開源模型中后來居上:在去年 10 月,Qwen 的衍生模型數量達到 8 萬多個,超越了更早開源的 Meta Llama 系列,此后持續領先。



三個開源模型系列 Qwen 系列、Llama 系列、Mistral 系列的衍生模型數變化。

蘋果據傳選擇 Qwen 成為中國的大模型合作伙伴,李飛飛團隊用 Qwen 來訓練超低成本推理模型,通用 Agent 產品 Manus 調用 Qwen 來做決策規劃,DeepSeek-R1 的部分小尺寸模型也用到了 Qwen 來訓練。

但相比在技術社區的影響力,Qwen 在泛商業界相對低調,幾次關鍵發布被 “搶頭條”。開發者調侃,Qwen 是大模型領域的 “汪峰”。

“這是什么意思呢 ?” 周靖人投來疑問的目光,他沒聽過這個玩笑。

周靖人戴著金絲眼鏡,語調缺乏起伏、語速也幾乎一致,平穩有如程序。3 小時的訪談中,他講得最多的是 “技術規律”。

我們問他,怎么考慮更新和發布模型的節奏競爭?他說:

“我們無法預知別人的發布節奏。研發這件事,想臨時調節奏也調不過來,不符合研發規律。”

聊起阿里集團 CEO 吳泳銘今年 2 月說 “阿里現在的首要目標是追求 AGI”,周靖人說:

“今天外界聽到吳泳銘宣布了什么,感覺阿里好像突然有個大轉變,其實不是。從技術發展規律來說,沒有前期積累不可能一蹴而就。”

開源如果做不到第一,意義將大打折扣,也可能失去閉源的商業機會。周靖人卻淡化這個選擇的壓力:

“從技術發展規律看,不開源反而風險更大,因為開源至少會追上閉源,甚至發展得更好。”

他有一些不同于多數人的觀點,講出來時也語調平淡、不帶色彩:

“其實 o1 談不上定義了新范式。讓模型學會思考,它不是一個范式,而是一種能力。”

周靖人在 2015 年從微軟加入阿里巴巴,在 iDST 和達摩院帶過前沿技術研發,也在螞蟻、淘寶做過實際業務落地。

以下是《晚點》對周靖人的訪談,他回顧了阿里開發大模型的過程,開源的關鍵決策,和他對當前大模型技術的思考。

“某一天的流量沒那么重要。大模型不是短期競爭”

晚點:現在外界對阿里有一個調侃,說你們是大模型領域的汪峰。

周靖人:這我不知道。什么意思呢?

晚點:指阿里的重磅發布常被 “搶了頭條”。先是春節更新基座模型 Qwen2.5-Max,被 DeepSeek 推理模型 R1 搶了風頭;后來 3 月發布推理模型 QwQ-32B ,又趕上大火的 Agent 產品 Manus 同天發布。

周靖人:某一天的流量其實沒那么重要。

晚點:真正重要的是什么?

周靖人:更前瞻性地思考,更篤定地堅持自己的技術路徑和節奏。

晚點:阿里通往 AGI 的路徑是什么?

周靖人:首先,我們的一個核心認知是,大模型發展和云體系的支撐不可分割。無論訓練還是推理,大模型的每一次突破,表面看是模型能力演進,背后其實是整個云計算和數據、工程平臺的全面配合和升級。

在模型能力上,大家現在討論最多的是推理模型。我們在繼續探索讓模型能更像人那樣去思考,未來甚至能自我反思、自我糾錯等。

多模態也是通向 AGI 的重要途徑。人的大腦也是有的部分處理文字,有的部分處理視覺、聲音。我們要讓大模型能理解并貫通各個模態。

我們也在探索新的學習機制,包括怎么能讓模型在線學習、持續學習和自學習(Self Learning)。(注:現在的模型訓練是 “離線學習”,每次升級需要重新做預訓練、更新版本。)

在提升云體系的性能和效率上,我們會加強云和模型的軟硬一體聯合優化。尤其在今年,工程能力、整個云系統結合 AI 的性能和效率會變成核心競爭力。

晚點:同時做這么多事,不會失焦嗎?

周靖人:大模型發展到現在,已經從早期階段的初期,進入了早期階段的中期,不可能只在單點能力上改進了。因為真正的通用人工智能,就是需要多模態、工具使用、Agent 支持和持續學習等多種能力,等(某個方向)跑出來再做是來不及的。不光我們,頭部公司都會在多個方向上提前預研。

晚點:剛發布的 Qwen3 體現了阿里在哪些方向的布局?

周靖人: Qwen3 是一個混合推理模型,它同時提供了 “推理模式” 和 “非推理模式”,前者用于復雜邏輯推理、數學和編程,后者能處理日常指令和高效對話。混合推理模型今后是大模型發展的重要趨勢。

晚點:為什么會成為趨勢?混合推理模型的好處是什么?

周靖人:它能更好平衡性能和成本。在 “推理模式” 下,模型會執行分解問題、逐步推導、驗證等中間步驟,給出 “深思熟慮” 的答案;在 “非推理模式” 下,則可以快速遵循指令生成答案。

Qwen3 還有一個 “思考預算” 設置——開發者可以自己設定深度思考的最大 token 消耗,這能更好滿足不同開發者對性能和成本的需求。

晚點:那么這么做的代價和難點是?

周靖人:混合推理模型是通過推理和非推理的混合訓練做到的,這需要模型學習兩種不同的輸出分布,很考驗訓練策略。所以設計和訓練混合推理模型,遠比做單純的推理模型要難。

Qwen3 在后訓練階段,也是兩種模式混合訓練,相當于合并了推理模型 QwQ 系列和指令微調模型 Qwen2.5-instruct 系列,同時將它們的優勢并合二為一。

晚點:阿里現在怎么把握模型更新節奏?發布節奏和聲量也是現在各公司的競爭點,比如 OpenAI 有幾次更新都是趕在 Google 的重磅發布之前。

周靖人:肯定會有這方面的考慮,但最終不是靠發布時宣傳得怎么樣,最終還是看開發者和市場反饋。

再說我們也無法預知別人的發布節奏。研發這件事,想臨時調節奏也調不過來,不符合研發規律。

晚點:Qwen 系列下載量在全球僅次于 Llama,同時是衍生模型數量最多的開源模型,但市場對此認知不夠,這會讓阿里困擾嗎?你們想了什么方法來增加技術影響力?

周靖人:其實通義千問的傳播是不錯的。核心還是在于開源的模型要足夠強,否則其他方式都沒什么用。

晚點:通義千問何時會有一個真正出圈的、讓更多人 eye-opening 的進展?類似 Sora、DeepSeek-R1 曾引起的關注。

周靖人:通義千問接下來會有很多亮點,但能否讓大家 eye-opening,這要看大家。我覺得有時我們太關注此時此刻,誰又比誰強一點點。但長遠看,如果真認為 AGI 是最終目的地,當前的你追我趕都只是階段性過程。

更重要的是,要知道自己在正確的方向上,以及要持續、長期創新。所以不用太糾結,今天或明天,是不是比別人又多了一個身位。

晚點:阿里管理層,比如吳泳銘,他就不在意通義千問此時此刻是否優于別人嗎?

周靖人:我們肯定要保持在第一梯隊。我們也追求每一代模型發布時,都有技術突破,能代表領域當前最高水平。

同時我們也多次內部強調,這不是一個短期競爭,不是靠一時把弦繃多緊,而是要長期創新。整個科技發展需要定力,也希望給行業一些時間和耐心。

“沒有前期積累,此時此刻談不上以 AI 為中心”

晚點:在今年 2 月的阿里財報會議上,阿里集團和阿里云 CEO 吳泳銘說 “阿里現在的首要目標是追求 AGI,持續開發拓展智能邊界的大模型”。作為阿里大模型負責人,你是何時明確最大目標是 AGI 的?

周靖人:今天外界聽到吳泳銘宣布了什么,感覺阿里好像突然有個大的轉變,其實不是這樣的。從技術發展規律來說,沒有前期積累不可能一蹴而就。

阿里對 AI 投入非常早,Transformer 之前,就有 iDST(阿里數據科學與技術研究院,2014 年成立)和達摩院(2017 年成立)做 AI 前沿研究。Transformer 之后,我們從 2019 年開始做多模態 MoE(混合專家模型)模型,2021 年發布了萬億參數的 MoE 多模態大模型 M6。

Transformer 的核心在于預訓練。它一開始并不帶著一個特殊的具體任務,而是通過大量數據訓練一個能適配多種任務的模型。

這是機器學習的一大突破。因為以前的模型要針對一個具體問題選擇數據、做標注,模型能力不好遷移,往往是一個場景就要做一個模型。比如人臉識別就不好遷移到物體識別上。我們就是看中了預訓練的泛化性,所以較早投入了這個方向。

晚點:最開始 Google 提出 Transformer 是處理 NLP(自然語言處理)問題,后來 OpenAI 做 GPT 也是先在語言上取得突破。而阿里是先重點做了多模態大模型,為什么是這樣的選擇?

周靖人:當時我也在負責淘寶的搜索和推薦。那時我們就意識到,對一個商品的理解,不單單是理解圖片或文字描述、用戶評論和各種點擊、瀏覽數據。更精準的理解應該是一個多模態的全方位理解。

晚點:所以當時更多是為電商場景服務,還不是拓展智能邊界?

周靖人:電商是目標場景之一。另一方面,從 AGI 的演進邏輯看,多模態也不可或缺,AI 要能使用工具,甚至未來能在真實物理世界活動,都需要多模態能力。

這個例子也很好說明了,阿里很早就是一個技術公司。淘寶的成功,不僅是把貨賣到線上,雙十一的高并發、更精準的商品推薦都需要大量技術支持。

2009 年,阿里也開始做云計算,2014 年又開始基于云做一系列 AI 平臺、數據平臺,比如 MaxCompute 等。

沒有這些前期積累,此時此刻就談不上以 AI 為中心。

晚點:從 2019 年開始做預訓練模型到 2023 年的大模型熱潮,阿里對大模型的認知和投入經歷了什么變化?

周靖人:2022 年秋天 ChatGPT 發布前,阿里云最早在行業里提出了 MaaS(Model as a Service),模型即服務。那時大模型還沒火,所以大家聽起來沒什么感覺。

但當時我們已經看到,模型是新時代重要的生產元素。上一代云計算,在 IaaS (基礎設施即服務)層是計算、存儲、網絡等計算元素,再往上是 PaaS (平臺即服務)層的數據平臺、機器學習平臺等生產元素。而模型融合了數據和計算,是更高階的產物。這里面有一個從 IaaS 到 PaaS 再到 MaaS 的路徑。

另一個重要的動作是開源。我們做開源也很早,要追溯到 2022 年推出開源模型分享社區 “魔搭”,之后在 2023 年 8 月決定開源通義千問大模型系列。當時關注的人也不多,但今天大家已經更清楚看到了開源的價值。

晚點:開源之于阿里是一種競爭策略嗎?比如你在微軟的前同事沈向洋曾說:第一名總是閉源,第二名才開源。

周靖人:開源成功的例子也很多,比如上一代大數據體系,開源的 Spark、Flink 成為了主流。

我們開源大模型是基于兩個判斷:一是模型會成為核心生產元素,開源更利于它普及,能推動整個產業快速發展;二是開源已成為大模型的重要創新驅動力。

這種創新來自多個方面:一是,開源能讓全球更多優秀人才參與技術創新,一起推動技術發展;同時,開源會降低企業使用模型的門檻,也因為開源免費,企業可以沒有顧慮地嘗試業務集成,這也推動更多企業內的開發者參與開源建設。所以社區開發者的技術創新和企業的反饋都會幫助建設技術生態、促進技術演進。

這是阿里做魔搭社區和開源通義千問的一貫邏輯,不是到了某個時間點才拍腦袋的決定。最初外界也不是那么理解,魔搭剛上線時默默無聞,但今天已成為中國最大的模型社區。

晚點:萬一開源沒做好,反而失去閉源的商業機會怎么辦?當時討論開源時,阿里高層里有哪些討論和顧慮?

周靖人:你可能想聽到一些激烈討論的故事,但其實并沒有。

阿里的愿景是 “讓天下沒有難做的生意”;云的初心是讓企業能在云上高效實現技術和業務創新;開源大模型是希望企業能更容易地把大模型用到業務里。所以這 3 個愿景高度一致、一脈相承。

同時從技術發展規律看,不開源反而風險更大,因為開源技術至少會追上閉源,甚至往往發展得更快、更強,Android、Spark 都是例子。

晚點:什么時候覺得通義千問的開源生態算是跑出來了?

周靖人:一是看開發者的選擇,去年我們占 Hugging Face 的下載量是 30% 多,基于通義千問的衍生模型數量也是最多的,已經超過 10 萬個,這只追蹤了反饋到開發者社區的數量,實際比這要多。

二是看性能指標,比如我們之前發的 QwQ-32B 模型,在 LeCun 做的 LiveBench 上超過了 R1,是最好的開源推理模型,這還不是 QwQ 的滿血版。(注:LiveBench 從數學、推理、編程、語言理解、指令遵循和數據分析等多個復雜維度對模型進行評估;由圖靈獎得主、Meta AI 首席科學家 Yann LeCun 領導編制。)

通義千問事實上是全世界最好、最全、使用最廣泛的開源模型,這件事市場的認知還蠻統一的。

晚點:阿里通義千問系列比 Meta Llama 開源更晚,但反超了對方,Llama 的失誤是什么,或者說你們可能做對了什么?

周靖人:我們很注重開發者需求,開源不是把代碼或模型權重開出來就完了,是要真正讓開發者能用起來。

所以每次開源,從什么角度開、設哪些尺寸,都要全面權衡不同開發者在成本和能力上的不同需求。比如最近通義萬相開源了可以在消費級顯卡上跑的版本,就是為了覆蓋更廣泛的開發者,因為很多人不見得有龐大的服務器。真正的開源,是讓大家方便使用,積極貢獻。

晚點:這次 Qwen3 一共開源了 8 個版本,其中 6 個是稠密模型,參數從 0.6B 到 32B,2 個是 MoE(混合專家系統)模型,一個 30B(激活 3B),一個 235B(激活 22B)。為什么是這個尺寸組合?

周靖人:其實就是盡量滿足從個人到企業的不同開發者的需求。比如手機端側可以用 4B,電腦或汽車端側推薦 8B, 32B 是企業最喜歡的尺寸,能商用大規模部署。MoE 模型只需要激活很少的參數,就能獲得很強的性能,可以提供更好的性價比。

晚點:這次有開源 Infra 層的新配套工具,幫開發者更好使用 Qwen 嗎?

周靖人:Qwen3 第一時間支持了 vLLM 和 SGLang 這兩個主流的推理優化開源框架。Qwen3 也原生支持 MCP(Model Context Protocol,由 Anthropic 開發的模型上下文協議)。配合我們今年 1 月開源的 Qwen-Agent 框架,Agent 開發者可通過 MCP 或其它方法集成工具,快速開發智能體。

晚點:想求證一個情況,有消息稱,在 DeepSeek-R1 發布后,有 20% 以上的通義千問模型開發者轉而使用 DeepSeek 模型。這種遷移對你們是多大的挑戰?Qwen3 能扭轉這種現象嗎?

周靖人:我們沒有觀察到明顯的遷移。而且開發者試用不同模型很正常,開源社區本來就不能排他,每個人會根據自身需求做選擇。我們相信,只要通義千問的模型能力持續進步,開發者就會愿意過來。

晚點:行業內認為 o1 和 R1 開啟了新范式。你如何看待它們的價值?

周靖人:其實 o1 談不上定義了新范式。讓模型學會思考,它不是一個范式,而是一種能力。就像多模態也不是范式,這些都是正常的模型演進。

o1 里的很多東西,比如 CoT(思維鏈)、強化學習(RL)很早就有。你甚至可以說 everything is RL,包括每一次模型迭代,就是在訓新一版模型時加了上一版的反饋。

范式是一個很重的詞。過去真正可以稱得上范式變化的,我認為是整個訓練基礎模型的方法。

晚點:你覺得今年在大模型領域,相對確定的進展是什么?

周靖人:有兩個主線:一是模型能力上,會繼續在類人思考和多模態上有提升;二是模型和底層云計算系統會更深度結合,能同時提升訓練和推理效率,讓模型更好用、更普及。

晚點:這個過程會有什么瓶頸嗎?雖然用強化學習做推理模型被認為有很大潛力,但其基礎是一個好的預訓練模型,比如阿里的推理模型 QwQ-32B 是基于 Qwen2.5-32B,R1 是基于 DeepSeek-v3。而最近 X.ai 發布的預訓練模型 Grok 3, 用 20 萬張卡帶來的提升只有 1.2%(在 Chatbot Arena 上比之前的第一名的總分提升)。當預訓練的 Scaling Laws 放緩時,在此基礎上做推理模型的提升還能持續多久?

周靖人:推理模型確實都依賴于強大的基座模型,這是共識。但不能簡單說預訓練本身的 Scaling Laws 到頭了。

如果只看文本,數據的上限可以看到,但多模態數據,比如大量視覺數據還沒被用到。同時,預訓練和后訓練乃至推理的邊界正在模糊,整合這些階段也有可能帶來提升。在學習方式上,除了離線訓練,大家也都在探索在線學習、持續學習等。

所以,無論是看數據、訓練方式還是學習機制,基座模型的能力都有提升空間。

“云和大模型有同樣的優先級,要齊頭并進”

晚點:你現在既是阿里云 CTO 也是通義實驗室負責人,要同時保證阿里云和通義千問大模型處于領先位置,兩件事的優先級哪個更高?

周靖人:優先級是一樣的,因為二者拆不開,模型是云服務的重要部分;模型要有高性價比,又需要云體系支持。兩方面要齊頭并進。

晚點:如果通義千問大模型不能持續保持領先,對本來處于領先的阿里云業務是否也有不利影響?

周靖人:這是雙向影響的。如果模型不強,云的智能化服務就會打折;而如果模型足夠強、云能力跟不上,就沒法提供高性價比的服務。

在 AI 時代,客戶要的不是單一的模型或云的能力,而是強模型 + 低成本 + 高彈性的綜合體驗。

反映到技術上,過去訓練和推理是分開考慮的,但現在訓練時就要考慮推理效率,推理時也要想模型好不好訓、能不能收斂。這是一個硬幣的兩面,要整體協同優化。

晚點:DeepSeek 就是基于自己的 GPU 集群做了模型訓練和推理的極致 Infra 優化。它有可能成為第三方 AI 云玩家嗎?

周靖人:它看起來有算力、有 Infra 層、有模型,但它不構成一個完整的云服務。

云服務要具備極致彈性并保證各種 SLA(Service Level Agreement,服務級別協議)——比如有些調用需要極低的延遲,另一些調用需要更高的吞吐和更低的成本,另外也需要穩定安全——這才是真正的企業級云服務。不能用著用著就宕機了或突然延時很高,這樣企業無法把重要業務放上去。

晚點:當你看到 DeepSeek Infra 開源周最后的總結,稱他們基于自己算力提供 API 服務的成本利潤率達到了 545%(換算成毛利為 85%),感受是什么?

周靖人:他們的系統優化的確非常出色,但這是一種理想化的計算方式。不用把它當成云的邏輯,因為真正提供云服務時,不能在系統繁忙時段選擇性地服務客戶,或降低繁忙時段的服務質量。

完整的 MaaS 服務也不會只有一個模型,而是兼容多種模型,所以阿里云一開始就支持 DeepSeek。云的邏輯是對不同模型都做好性能優化,把選擇權留給客戶。

晚點:在新的 AI 云機會中,阿里云的競爭對手實際是誰?

周靖人:國內我們是引領者,國際上的對手很多,AWS、Azure、GCP(Google 云服務) 都值得我們學習。

晚點:激進投入 AI 云的字節火山引擎不是嗎?

周靖人:火山這幾年發展很快,我們歡迎大家一起來推動 AI 產業的發展。這個市場空間還很大。

晚點:阿里近期宣布了 3800 億的 AI 和云計算基礎設施投入計劃。不過從基礎層投入到應用繁榮有一個周期,你們會擔心應用到時對 AI 云沒這么大需求嗎?

周靖人:AI 應用的指數級增長趨勢很明顯,過去一年阿里云 MaaS 服務增速很快,甚至到了供不應求的狀態。

晚點:除了芯片數量、計算效率等,你覺得在 AI 基礎層的投入上,還有哪些被忽略的方面?

周靖人:未來供電會是一個挑戰。所以 energy-aware optimization(面向節能的優化)也會成為一個技術方向,就是找到方法降低每個 token 的能耗。

晚點:阿里已經有什么準備了嗎?

周靖人:比如建設智算中心,除了根據用戶的業務需求綜合考慮建設成本和服務延時,也會考慮附近的自然能源供給、氣候條件等。這些都是云基礎體系的一部分,我們這么多年積累的這些 Know-How 在 AI 時代越發重要。

“科技研發沒有捷徑”

晚點:頭部大公司面對 AI 機會的共同選擇是從計算到模型層都做,從語言、推理到多模態,到更前沿的自主學習等技術方向都探索。但也有人認為 DeepSeek 那樣更聚焦的方式更能明確團隊重點——比如 DeepSeek 之前也做多模態,但去年下半年更收束到語言和推理上。對比這種更聚焦的方式,阿里多方向布局的過程中怎么解決內部資源分配問題?

周靖人:科技創新本身就需要多嘗試,但也不是無厘頭地什么都試。我們會先做小規模實驗,驗證方向對不對,再看是否加大投入。

研發過程本身是一個 pipeline(流水線),有的方向是預研,有的在收尾,有不同節奏。今天的 AI 研發是一個從高效實驗到訓練最后到產出的完整體系。

晚點:在眾多 pipeline 中,出現什么信號時,可以判斷這是一個有很大潛力的方向?

周靖人:你可能想聽一個大的 secret,但其實沒什么訣竅和捷徑。一般都是先有假設,再做小規模實驗,得到初步的證據,然后是更大規模的實驗。我們內部有科學的評估方法和數據支持,幫助好的方向脫穎而出。這是能持續做出成績的組織的共性。

晚點:怎樣能有高質量的假設?怎樣提升同時進行多個實驗的效率?

周靖人:一是方向性的判斷,這來自優秀人才的技術素質;二是科學的驗證方法,要看實驗和數據支持,不是靠一個人拍腦袋。

晚點:假如我是一名阿里通義研究人員,我有一個想法需要用 100 張卡做實驗,我如何能及時、順暢地獲得想要的資源?

周靖人:我們有快速實驗的平臺,支持用少量資源試錯。一上來就想在超大規模模型上中大獎,這是不可能的。

晚點:你們的眾多 pipeline 里,最近有哪些已有較大進展了嗎?

周靖人:最近大家最關注的還是語言和推理。我們在多模態 VL(視覺語言模型)、音頻等模型等方向都有很多積累,都在 Qwen3 上有了明顯提升。

晚點:研發的本源是人才,阿里的部分技術骨干被字節等公司高薪聘請,你們怎么應對?

周靖人:人才流動很正常。更重要的是團隊能堅持一個初心,一起做出出色的工作,這是凝聚力的來源。

同時現在模型研發不僅是模型、算法層的創新,而是個長期系統工程,要有堅定投入的耐心,今天做、明天停,對團隊影響很大。阿里在通義千問上的投入是非常堅定的。

晚點:我們了解到,2024 年,通義給所有研究員普漲了一級職級,并全面加薪。這是對人才市場變化的回應嗎?

周靖人:我們一直有激勵團隊。薪酬匹配是需要的,但高薪不是唯一手段。

晚點:你 2023 年曾告訴我們,AI 時代,科研、技術、產品要更緊密結合,沒法像以前那樣分那么開。為什么阿里去年下半年把大模型的 2C 產品從阿里云分到了吳嘉管理的阿里信息智能事業群?

周靖人:這不是分開,而是更專業化。通義專注技術研發,2C 產品團隊專注用戶體驗和運營,分工更清晰,但協作很緊密。比如夸克也在用最新的通義千問模型。

晚點:你現在和吳嘉怎么配合?

周靖人:我們日常討論很頻繁。通義的重要目標之一是支持好夸克等產品,這些產品也能給我們模型研發一些反饋。

晚點:為什么通義要自己做 Qwen Chat 這個對話產品?

周靖人:Qwen Chat 不會有太多產品設計,它更多是讓全球開發者能方便體驗通義千問的最新模型。

晚點:你很冷靜,從 AI 熱潮以來,有什么事會讓你難得的興奮嗎?

周靖人:一是技術的快速發展本身,二是我們過去的堅持能讓我們有一個好的進展。這對每一個技術工作者來說都是非常幸運的事。

晚點:那有什么事讓你焦慮嗎?比如在你們的強項多模態上,你最初看到 Sora 時焦慮嗎?

周靖人:沒有。為什么焦慮?ChatGPT 剛出來時行業很焦慮,后來國內模型競爭起來了,就更理智了。Sora 也是一樣,我們最近開源的視頻生成模型萬相 2.1 和 Sora 對比,外界評價也是互有勝負。

晚點:不焦慮的前提是你們保持在第一梯隊,阿里怎么知道自己一直在大模型第一梯隊?

周靖人:還是看市場反饋。自己說自己多強,意義不大。

晚點:有什么長期保持在第一梯隊的方法嗎?現在大家都是各領風騷 30 天。

周靖人:從每個組織內部看,今天每一代模型的提升,都是基于前一代的能力,優勢是逐漸積累、代代疊加的。

看起來各領風騷,是因為科技發展的規律就是你追我趕,大家相互啟發和學習,這對研究者來說很自然。所以我也經常和團隊說,不用那么在意一時的流量,科技發展都是一步步來的。

題圖來源:阿里巴巴

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
蠶豆再次成為關注對象!醫生提醒:吃蠶豆時,一定要注意這3點

蠶豆再次成為關注對象!醫生提醒:吃蠶豆時,一定要注意這3點

華庭講美食
2025-04-27 13:46:41
韓國下屆大選執政黨初選4進2結果揭曉 金文洙、韓東勛勝出

韓國下屆大選執政黨初選4進2結果揭曉 金文洙、韓東勛勝出

財聯社
2025-04-29 14:40:05
女子做分揀員月入超9000元,半年瘦46斤

女子做分揀員月入超9000元,半年瘦46斤

大象新聞
2025-04-29 15:55:01
IBM宣布在美投資1500億美元

IBM宣布在美投資1500億美元

EETOP半導體社區
2025-04-29 11:36:41
業績暴雷!業績暴跌100%,43只股票大虧損,含軟件、半導體、醫藥

業績暴雷!業績暴跌100%,43只股票大虧損,含軟件、半導體、醫藥

小波股事歷程
2025-04-29 08:27:27
岳飛死后,后裔一代比一代牛,二十一世孫戰功不輸岳飛,入享太廟

岳飛死后,后裔一代比一代牛,二十一世孫戰功不輸岳飛,入享太廟

文史達觀
2025-04-28 12:09:49
大勢已去!一個銀行朋友給我的警告:手中有存款的人需緊急準備

大勢已去!一個銀行朋友給我的警告:手中有存款的人需緊急準備

涵豆說歷史
2025-03-03 17:11:46
巴貝爾:說不出金玟哉和于帕誰更差,于帕也就是范戴克的替補

巴貝爾:說不出金玟哉和于帕誰更差,于帕也就是范戴克的替補

懂球帝
2025-04-29 16:06:27
銀行存款大調整!2025年4月起,存款超50萬的家庭需留意!

銀行存款大調整!2025年4月起,存款超50萬的家庭需留意!

巢客HOME
2025-04-08 20:33:26
世乒賽抽簽時間確定,對強敵雨果,王皓該出手了,國乒一哥爭奪戰

世乒賽抽簽時間確定,對強敵雨果,王皓該出手了,國乒一哥爭奪戰

卷史
2025-04-29 15:45:44
昆明“大器史局長”婚內出軌!小三:床上,他帶我去天堂!

昆明“大器史局長”婚內出軌!小三:床上,他帶我去天堂!

文刀萬
2024-04-09 10:58:09
特朗普連退兩步,終于下定決心,必須結束貿易戰,中方回了一句話

特朗普連退兩步,終于下定決心,必須結束貿易戰,中方回了一句話

紅色鑒史官
2025-04-28 18:15:03
美國教授嘆息:全世界都低估了中國,中國是一個真正偉大的文明

美國教授嘆息:全世界都低估了中國,中國是一個真正偉大的文明

小玡說故事
2025-04-28 22:18:57
具俊曄終于露出真面目?在紐約和朋友相聚,一起聊天喝酒一臉笑容

具俊曄終于露出真面目?在紐約和朋友相聚,一起聊天喝酒一臉笑容

西瓜愛娛娛
2025-04-28 11:13:10
庫里啞火,火箭隊G4輸在哪?裁判吹罰+6大因素一人進入離隊倒計時

庫里啞火,火箭隊G4輸在哪?裁判吹罰+6大因素一人進入離隊倒計時

鍋子籃球
2025-04-29 14:09:12
時間定了!明天開街!

時間定了!明天開街!

江南晚報
2025-04-29 09:46:41
41歲男星韓庚,發文告別

41歲男星韓庚,發文告別

魯中晨報
2025-04-27 07:48:08
女子退票打不進客服換手機卻秒接通,懷疑被故意不接,公關回應:不存在類似“系統問題”

女子退票打不進客服換手機卻秒接通,懷疑被故意不接,公關回應:不存在類似“系統問題”

觀威海
2025-04-28 09:10:11
西媒:皇馬將為安切洛蒂支付剩余薪水,并聘請他終身擔任俱樂部大使

西媒:皇馬將為安切洛蒂支付剩余薪水,并聘請他終身擔任俱樂部大使

雷速體育
2025-04-28 21:10:55
巴方:“你斷我們水,我就讓你斷氣”

巴方:“你斷我們水,我就讓你斷氣”

環球時報新聞
2025-04-29 00:02:36
2025-04-29 16:47:00
晚點LatePost
晚點LatePost
晚一點,好一點。商業的真相總是在晚點。《晚點LatePost》官方賬號
2654文章數 21766關注度
往期回顧 全部

科技要聞

Qwen3登頂開源榜 阿里稱大模型是十年長跑

頭條要聞

印巴再度交火 外交部回應是否計劃"介入調解"

頭條要聞

印巴再度交火 外交部回應是否計劃"介入調解"

體育要聞

勇士火箭雷霆太陽,你們是怎么失去他的?

娛樂要聞

甜馨簽樂華出道惹爭議 維護爸媽被質疑

財經要聞

特朗普執政百日下的美元危機

汽車要聞

年輕or傳統?上汽奧迪A5L與一汽奧迪A5L有什么不同?

態度原創

時尚
親子
手機
藝術
健康

年齡從來不是美的枷鎖,掌握這3大穿搭技巧,40+美出圈

親子要聞

男孩滑滑板成功下樓梯,太不可思議了

手機要聞

小屏黨春天 OPPO Find X8s學生購機優惠多多

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 犍为县| 含山县| 从化市| 阳东县| 特克斯县| 蓬莱市| 哈密市| 德安县| 红原县| 留坝县| 文化| 屯门区| 山东| 化隆| 涞源县| 北辰区| 怀来县| 汉中市| 沐川县| 溆浦县| 蒙城县| 中超| 中西区| 合山市| 铁力市| 广西| 阳朔县| 五常市| 曲松县| 兴国县| 镇沅| 塔河县| 沙湾县| 东明县| 镇沅| 宁都县| 铜梁县| 固安县| 临沭县| 城口县| 嘉义县|