99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

aiXcoder:代碼大模型引領企業軟件開發革命|50條技術賽道,50家創業公司

0
分享至


圖片來源:網絡

通用大模型性能的飛速提升疊加推理算力成本的快速縮減,讓垂直領域大模型迎來了真正的爆發期。在諸多垂直領域的模型之中,代碼大模型,尤其得到了市場和資本的高度關注。

Gartner在《2024年全球IT支出預測》中指出,全球軟件開發人力成本的年均增幅約為7-9%,2024年全球軟件相關支出(含開發、運維)將達1.2萬億美元,其中約50%用于人力成本,即6000億美元。而中國互聯網巨頭們在軟件開發方面的人力成本壓力更為明顯,部分公司薪酬及相關支出年增幅接近15%。

與高起的軟件開發訴求相比,全球軟件工程師缺口持卻在續擴大,有數據顯示,未來十年缺口可能達數千萬,成為制約各行各業數字化轉型的核心挑戰。

在日益增長的軟件開發訴求、同步增長的人力成本和巨大的人才缺口一齊作用下,代碼大模型成了少數具備明確商業化條件和付費意愿的垂直行業大模型之一。

Cursor僅用21個月便達到了1億美元ARR,成為歷史上增長最快的SaaS產品,估值100億美元。Gartner還預測,到2026年,AI將自動化全球30%的編碼任務,這意味著代碼大模型是一個可以“看得見”的千億美元級蛋糕。

除了目前海外爆火的AI編程產品如:GitHub Copilot、Cursor、Codeium等外,國內的通用大模型廠商也紛紛殺入該領域,如阿里的通義靈碼,騰訊的騰訊云AI代碼助手,華為的Code Arts,字節跳動的豆包Mars Code,百度的文心快碼等,包括京東、訊飛、昆侖萬維、DeepSeek、智譜等多家通用大模型廠商均有布局。

而在眾多玩家里,孵化于北大軟件工程研究所的aiXcoder更以其深厚的積淀和卓越的模型性能獨樹一幟。

憑借北大軟件工程研究所60余年的深厚積累,aiXcoder團隊從多篇全球頂會的論文奠基,到全球首個十億級和百億級參數的國產代碼大模型aiXcoder的發布,再到國內諸多大廠頭部客戶實踐落地,實現了從實驗室理論到產業價值的閉環突破。

其2024年4月發布并開源的aiXcoder-7B模型更是在多個評測集的評測結果中超越了同級別參數規模的眾多開源模型。例如,與晚于其發布近半年的 Qwen2.5-Coder-7B,以及 DeepSeekCoder-7B、CodeLlama-7B 等模型相比,aiXcoder-7B 在代碼生成與補全效果上均達到了SOTA評價(State Of The Art,即當前最佳)。

今年年初,aiXcoder(北京硅心科技有限公司)剛剛完成A++輪融資,由中關村發展集團旗下中關村資本和中關村協同創新基金共同參投。

公開資料顯示,該公司目前共獲得4輪融資,吸引了伽利略資本、高瓴創投、彬復資本、清流資本、三七互娛等多家頂級風險投資機構的持續注資。

近日,aiXcoder的商業合伙人兼總裁劉德欣接受了鈦媒體創投家的獨家訪談。在訪談中,他深入探討了當前代碼大模型行業面臨的技術瓶頸和未來趨勢,展現了在這一前沿領域的獨到見解與實踐路徑。

以下為鈦媒體創投家與劉德欣對話全文,略有刪減:

鈦媒體創投家:通用大模型為何取代不了代碼大模型?

劉德欣:通用大模型的構建和訓練方式基于自然語言,而非編程語言(代碼)。

代碼相比自然語言具有幾個獨特的特性:首先,代碼對上下文的依賴性更強,許多代碼成分的語義嚴重依賴于其所在的上下文;其次,代碼具有更強的結構性。所有程序語言都可以映射為抽象或具體的語法樹(AST)結構,而不像自然語言那樣單一地采用線性表達方式。

如果模型按照理解自然語言的習慣來學習程序語言,就會將代碼當作普通文本進行建模,從而喪失代碼本身的結構化特性,忽略代碼各部分之間的內在關聯和嚴格約束。這不僅會降低代碼補全和代碼生成的準確性,還容易引發因語義理解錯誤而產生的“幻覺”。

另一個原因在于訓練數據。通用大模型主要利用互聯網上公開的數據進行訓練,這就無法涵蓋特殊行業或企業的私有數據。依靠公開數據訓練的模型,支持通用領域的軟件開發任務尚可,但是企業內的軟件開發需求來自該企業所屬的特定行業和領域,這些任務有其獨有的內部命名方法和特定的業務邏輯,這就需要企業或行業提供私域數據進行專門的個性化訓練。

例如,讓大模型生成一些通用代碼(如讓大模型幫我們寫一個基于HTML的4×4版的華容道游戲,或者貪吃蛇游戲)問題不大;但如果用它來開發一個銀行的業務程序,則很可能出現諸多錯誤和遺漏。其根本原因在于,這些通用大模型沒有接觸過銀行的私有數據和業務知識,而各家銀行也不會將這些數據公開在互聯網上。

這就是通用大模型無法滿足企業和特定行業代碼需求的根本原因。

鈦媒體創投家:aiXcoder-7B有什么獨特的技術優勢?

劉德欣:我們團隊近期在ICSE 2025(國際軟件工程大會)最新論文《CodeGen-7B: A Pragmatic Approach to Industrial-Strength Code Generation》中提出了對行業的三大貢獻,這正好能說明aiXcoder-7B的獨特優勢。

首先,我們采用結構化Span的形式構建模型,并創新性地提出了“結構化填充中間目標(SFIM)”的訓練方法。

程序語言比自然語言更具結構性,我們將所有代碼映射為抽象或具體的語法樹(AST)結構,類似于多重小葉片疊加,我們稱之為“結構化Span”。采用這種方式構建的模型能夠更精準地理解程序語言,從而確保后續的訓練更加準確、完整。

而傳統的Fill-In-the-Middle(FIM)方法是隨機選擇代碼片段,在片段中隨機“挖空”進行補全訓練。但這種方法存在的問題在于,隨機選擇的片段往往不完整,缺乏必要的上下文支持,與真實程序員的開發習慣不符,訓練出的結果也很難保證準確性。

針對這一問題,我們創新性地結合代碼語法樹(AST)結構,設計出結構化填充中間目標(SFIM)的訓練模式。通過解析代碼語法樹節點,選取完整的代碼邏輯單元作為訓練跨度,有效避免了隨機選段造成的不完整情況,從而大幅提升了模型訓練效果。

實驗表明,SFIM顯著提升了生成代碼的簡潔性(生成代碼長度與人類代碼的比值從DeepSeekCoder-7B的1.65降至0.87)以及結構合理性(在FIM-Eval評測中CodeBLEU得分提高了5.3%)。

其次,aiXcoder-7B提供了跨文件上下文理解的系統性優化方案。針對企業級代碼庫中跨文件依賴的復雜性,我們提出了多樣化的數據采樣算法,包含以下四種策略:

  • 基于文件內容相似性采樣(模擬相似代碼補全場景)

  • 基于文件路徑相似性采樣(模擬API調用場景)

  • 基于文件依賴關系采樣(模擬模塊間調用鏈場景)

  • 隨機采樣(覆蓋長尾場景)

最后,aiXcoder-7B還創新性地發布了FIM-Eval評測集,基于16000多條來自真實開發場景的數據進行測評,顯示aiXcoder 7B不僅在代碼生成與補全方面效果最好,且生成的代碼更加簡潔。有效解決了真實開發場景的覆蓋問題,該評測集現已成為軟件工程領域驗證代碼生成模型實用性的關鍵工具。

鈦媒體創投家:除了模型性能,企業在私域大模型落地過程中還關注哪些要素?

劉德欣:我們總結了企業領域大模型落地的四大原則,這也是我們給所有客戶的建議。

第一,企業要掌握模型自治權。

我們知道有些企業在建設項目的時候,需要廠商提供源代碼,但在大模型時代擁有大模型的源代碼并不等同于擁有模型自治權,只有掌握了一整套企業內部業務數據梳理和再訓練的框架,能夠靈活地匹配適合企業業務屬性的大模型并對其進行自治管理,才能稱得上是擁有了模型自治權。以aiXcoder為例,在進行個性化訓練時,我們不會觸碰客戶的代碼。客戶的私域敏感數據我們不接觸,而是教會客戶如何進行訓練,待訓練完成后,再對模型進行評測和校驗。

第二,要實現模型層的高解耦。

我們自2022年開始就在給企業提供這一原則:不要綁定任何單一的大模型廠商,也不要依賴于某個特定的開源或閉源模型。隨著2023年大模型爆發,我們會看到總有更好的模型出現。這一原則的關鍵在于保證接口標準化、底層算力與模型的適配性,以及大模型廠商是否能提供即插即用的適配方案,從而隨時實現將業界最SOTA的大模型集成到企業內部的業務體系。

第三,要建立可復用的數據框架。

企業需要基于業務需求做好數據治理,我們所提出的大模型數據治理是一套企業內數據治理框架。該框架確保了我們的業務數據被經過系統的整理后,可以方便企業日后以高復用的方式,用于任何模型的微調和后訓練。做到數據治理的體系化、標準化和高復用。提升企業落地大模型的敏捷效率和低成本。。

第四,要始終關注業務。

很多客戶熱衷于追逐大模型技術,企業自身的投入也越來越大。但業界不斷有更新的、更強的模型出現,這很容易讓之前的投入被顛覆。我們建議客戶將財力和精力更多地投入到企業業務的集成上,通過高解耦的方式,持續整合最強大模型,以保障企業自身產品和技術的競爭優勢。

鈦媒體創投家:大廠在代碼大模型領域的布局非常多,aiXcoder如何應對大廠競爭?

劉德欣:大廠的確具備明顯優勢,尤其在獲客方面。然而,我們應對大廠競爭的策略主要體現在以下幾點:

第一,垂直領域深耕。我們團隊來自北大軟工所,是國際上最早將深度學習技術用于程序代碼生成和代碼理解的團隊,憑借在軟件工程領域十余年的工具和方法積累,形成了一定的技術和產品壁壘。我們也會在軟件工程和智能化這兩個垂直領域做更深的技術融合,并保持技術層面持續領跑。

第二,與客戶建立合作伙伴關系。與很多大廠交付的標準化產品不同,我們更注重深入了解客戶的復雜及私域需求,提供定制化和個性化的解決方案。過去曾有客戶在與大廠合作后,因交付產品和后續服務出現斷層,而最終選擇回歸與我們合作。

第三,積極開展與大廠的合作。我們也在與大廠積極開展合作。當大廠在解決企業私域落地問題時,他們往往會尋求外部專業團隊的服務,而這正是我們的優勢所在。

鈦媒體創投家:代碼大模型的終極形態是什么?會完全取代人類程序員嗎?

劉德欣:終極形態一定是實現完全的智能化、自動化的軟件開發過程。

在這個終極形態下,AI 系統將能夠從用戶需求描述、業務場景以及相關的非結構化信息中,自動理解并生成完整、高質量的軟件系統,涵蓋代碼編寫、測試、部署到維護等整個生命周期的自動化管理。這樣的終極形態將大幅提高軟件開發效率和質量,降低開發成本與門檻,使軟件開發更廣泛地應用于各個領域。

同時我們認為,無論是短期還是長期,人類程序員都具有不可替代性。

短期來看,人類程序員擁有深厚的業務知識和豐富的實踐經驗,能夠從整體上把握項目需求和方向,進行復雜的系統架構設計與業務流程優化;同時,他們具備創新思維和創造力,能夠根據實際需求提出新穎的解決方案和技術架構;此外,在處理特殊情況和復雜問題時,人類程序員的應變能力和決策能力更為突出,這些都是當前AI 難以企及的。

長期來看,人類程序員可能不再需要手動編寫大量代碼,但他們仍需將更多精力投入到需求分析、算法和系統架構設計,以及對AI 生成結果的審核和業務創新上。這些高價值點更具創造性和戰略性,也是 AI 無法替代的。

鈦媒體創投家:aiXcoder近期有什么好消息公布嗎?

劉德欣:aiXcoder目前已完成產品升級,創新推出內置MCP功能的軟件開發Agent,我們正在內測中。對于企業和開發者來說,不論是操作體驗還是開發價值都比之前更好,表現在:

私有化部署安全可靠:及時響應業務需求,支持企業私有化部署,并針對性適配企業已有的開源大模型,確保企業在安全可控的生產環境下,擁有自主可控的Agent能力。

大幅縮短研發周期:無論是從零構建全新應用,還是基于復雜代碼庫迭代功能,通過聊天對話就能推動Agent自動執行任務,極大提高研發效率,大幅縮短研發周期,助力企業數字化轉型。

企業私有化工具無縫集成:MCP的開放式架構展現出強大的環境適配能力,支持企業在不影響現有代碼架構的前提下,快速接入企業私有化工具鏈(如內部SVN系統、定制化CI/CD平臺),同時兼容常用本地開發工具的無縫集成。由此,既保障了企業核心資產的安全性,又為開發者保留了靈活的工具選擇空間。

成本精細化控制:相比Cursor每月20-40美元費用,aiXcoder Agent功能計劃在插件端免費開放,使用Agent無門檻,推動AI Coding行業發展。

不僅是Copilot,更是資深Partner。aiXcoder Agent產品這也是繼去年4月初開源的自研7B大模型后,又一次為軟件開發者獻上的一份厚禮。(本文首發于鈦媒體App,作者|郭虹妘,編輯|陶天宇)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
第一批特斯拉車主已開始換電池!天價費用曝光!

第一批特斯拉車主已開始換電池!天價費用曝光!

生活魔術專家
2025-04-21 13:26:17
印度部長:當前全球貿易危機的根源,在于讓中國入世,不歡迎中資

印度部長:當前全球貿易危機的根源,在于讓中國入世,不歡迎中資

獵火照狼山
2025-04-14 13:57:44
約基奇:小卡搞定了那些高難度投籃 但對他來說這真的算得上難嗎

約基奇:小卡搞定了那些高難度投籃 但對他來說這真的算得上難嗎

直播吧
2025-04-22 15:42:12
NBA球員匿名投票:哈利伯頓獲得14.4%選票當選聯盟最被高估球員

NBA球員匿名投票:哈利伯頓獲得14.4%選票當選聯盟最被高估球員

雷速體育
2025-04-22 22:13:41
季后賽砍下55次30+有多難?NBA歷史僅9人,喬丹109次僅排第二

季后賽砍下55次30+有多難?NBA歷史僅9人,喬丹109次僅排第二

大衛的籃球故事
2025-04-22 17:39:25
網傳深圳相親角一41歲剩女,要求男方年薪50萬,網友:此生無解…

網傳深圳相親角一41歲剩女,要求男方年薪50萬,網友:此生無解…

明月雜談
2025-04-21 16:11:32
閑魚變“黃魚”,表面賣女生自用自行車,實則做著見不得人的交易

閑魚變“黃魚”,表面賣女生自用自行車,實則做著見不得人的交易

西齋青簡
2024-05-07 11:55:02
宋振波,被“雙開”

宋振波,被“雙開”

新京報
2025-04-22 16:13:09
中國奧委會官宣:周繼紅當選中國泳協主席 退休不到一個月就復出

中國奧委會官宣:周繼紅當選中國泳協主席 退休不到一個月就復出

醉臥浮生
2025-04-22 10:52:00
曾被認為已滅絕,重慶農民卻一直用它蓋房,1999年專家下鄉才發現

曾被認為已滅絕,重慶農民卻一直用它蓋房,1999年專家下鄉才發現

萬象硬核本尊
2025-04-21 23:16:56
國務院批復四川規劃:重點布局8座中心城市,多地被委以重任!

國務院批復四川規劃:重點布局8座中心城市,多地被委以重任!

冬天來旅游
2025-04-23 01:03:56
劉強東與美團、餓了么騎手喝酒:歡迎兄弟們加入京東

劉強東與美團、餓了么騎手喝酒:歡迎兄弟們加入京東

PChome電腦之家
2025-04-22 16:46:50
桂林旅游虧損10億!網友:桂林山水就像一美女穿著一件破舊衣裳…

桂林旅游虧損10億!網友:桂林山水就像一美女穿著一件破舊衣裳…

火山詩話
2025-04-21 06:25:09
CBA四強之外別樣戰火燃燒更旺,徐杰剛剛謝幕高詩巖卻又粉墨登場

CBA四強之外別樣戰火燃燒更旺,徐杰剛剛謝幕高詩巖卻又粉墨登場

呀古銅
2025-04-23 01:40:09
債務超37萬億美元,卻還能養11艘航母?原來我們都被美國“騙了”

債務超37萬億美元,卻還能養11艘航母?原來我們都被美國“騙了”

陣匠
2025-04-23 02:15:08
格力電器董事會換屆結果出爐!董明珠獲連任,再干三年

格力電器董事會換屆結果出爐!董明珠獲連任,再干三年

每日經濟新聞
2025-04-22 16:50:04
山東大學教授在京東金融遭遇“套路貸” 年化息費率1080%

山東大學教授在京東金融遭遇“套路貸” 年化息費率1080%

科技金融在線
2025-04-21 23:41:55
車展速遞 | 上海車展全球首秀五款新車型!大眾汽車集團正式進入“交付模式” 奧博穆:正全力打造會思考的汽車

車展速遞 | 上海車展全球首秀五款新車型!大眾汽車集團正式進入“交付模式” 奧博穆:正全力打造會思考的汽車

每日經濟新聞
2025-04-23 01:22:02
掐架、報警、威脅女粉絲,粉絲應援“太瘋狂”,究竟是誰的錯?

掐架、報警、威脅女粉絲,粉絲應援“太瘋狂”,究竟是誰的錯?

FancyMusic
2025-04-22 19:11:51
實體不行了?人民日報表態:死的不是實體店,是20年不變的經營腦

實體不行了?人民日報表態:死的不是實體店,是20年不變的經營腦

夢史
2025-04-07 11:00:03
2025-04-23 03:08:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
117157文章數 860277關注度
往期回顧 全部

科技要聞

美團騎手親述:京東外賣單子傭金高卻難搶

頭條要聞

越南總理定調與美關稅談判后 越南股市一度閃崩后反轉

頭條要聞

越南總理定調與美關稅談判后 越南股市一度閃崩后反轉

體育要聞

當今足壇最瘋的門將,能有多離譜?

娛樂要聞

大s兒女回京!張蘭氣場全開汪小菲談養老

財經要聞

宜賓銀行與五糧液集團頻繁關聯交易

汽車要聞

捷途山海T2加長版/山海L9等 捷途新車展前亮相

態度原創

藝術
房產
家居
游戲
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

60+樓盤狂拼特價,海口最新房價曝光!

家居要聞

動靜結合 休閑娛樂并存

《上古卷軸4:復刻版》公布 2006原版和復刻版畫面對比

軍事要聞

普京三年來首次向烏克蘭發出“和談邀約”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 阿克陶县| 南投市| 二连浩特市| 黔东| 通州市| 永泰县| 娱乐| 资阳市| 农安县| 扎赉特旗| 余江县| 修文县| 昂仁县| 屏边| 通江县| 临朐县| 湖州市| 建昌县| 秀山| 延边| 西和县| 蓝山县| 黎平县| 綦江县| 浏阳市| 汶上县| 汾西县| 东莞市| 东海县| 浦北县| 铁岭市| 南雄市| 建阳市| 遵化市| 伊川县| 元氏县| 大同市| 汝州市| 西充县| 霍山县| 莎车县|