文:談擎說AI 作者:鄭開車
智能經濟時代,有人將數據比作石油,比作燃料。誠然,拿無人駕駛賽道來講,數據標注是實現無人駕駛系統準確性的前提。
數據標注將無標記的數據加上標簽或標注,使其成為有標記的數據,這樣機器學習算法才能夠利用這些數據進行訓練和學習,從而提高自動駕駛系統的準確性和性能。
在談擎說AI看來,詩意的講,數據標注的價值可以用一句古詩來比擬——“問渠那得清如許,為有源頭活水來”。無人駕駛想要提高準確性,想要“清如許”,需要”源頭活水來”。給數據做上標注,就是對“源頭活水”的凈化。
從這個維度來講,數據標注是智駕賽道的“源頭創新”。
作為“源頭”,那么數據標注的發展、進化、創新就顯得尤為重要。為了更好的認知數據標注賽道,談擎說AI團隊連線云測數據總經理賈宇航,探究數據標注產業背后的圭臬。
//量產比拼時代:數據標注賽道的進化路徑
在國內乘用車市場,高階智能駕駛輔助功能滲透率不斷提升。據工信部相關數據顯示,2021年中國L2級輔助駕駛乘用車新車市場滲透率達到23.5%,2022年上半年其滲透率增加至30%,并且滲透率還在持續不斷提升。有機構預測,到2025年,中國L2級以上智能汽車的銷量將突破1000萬臺,滲透率將達到50%。
用戶需求井噴,主機廠跑馬圈地,無人駕駛企業加速量產,是智能駕駛賽道的基本面。想要量產,想規模化,成本把控能力、駕駛交付體驗等都提出了新的要求。
首先,精準度。
智能駕駛系統對感知模型精度的要求也越來越高,因此,提升車輛感知模型的精度需要大規模且高質量的數據集去訓練。
“其實早在21年的時候,云測數據就發布了智能駕駛的數據解決方案1.0版本,1.0版本的解決方案圍繞著企業整個研發周期——針對企業預研階段,云測數據為其提供相關行業場景基礎數據集進行訓練,解決場景識別等基礎問題;到了基于特定場景的定制開發階段,云測數據提供場景化的數據采集與標注服務,滿足當前階段對AI數據精度和規模的需求;對于形成數據閉環的第三階段,云測數據提供一整套成熟工具幫助完成數據采集、標注、管理一系列流程,幫助企業優化迭代。”云測數據總經理賈宇航對談擎說AI表示道。
高質量AI數據才能釋放人工智能的價值。對于智能駕駛技術而言,這樣的數據精確化顯得更為重要:一方面,現實交通場景復雜、安全威脅多,非常重視數據分析的效率和敏捷;另一方面,標注數據質量的高低將直接影響智能駕駛的判斷和用戶體驗。有優質數據存在,才會訓練出優質的算法。
其次,效率。
在談擎說AI看來,提高效率,主要是分為兩種,一種是管理效率,一種是技術效率。
我們先來看管理效率,智能駕駛有很多落地場景且數據量極為龐大,不斷的迭代更新,要想提高效率,數據標注人員培訓的規范化、溝通成本、業務流程管理至關重要。
另一個是技術效率。
“其實在數據處理工具鏈層面上,云測數據做了很多標準化。比如研發上更強調系統集成這個概念,面對每一個企業不同的數據底座來講,會有很多不同需要,或者不同企業之間數據流轉的規范是不同的。云測數據這個過程之中將數據處理工具進行標準API接口研發,快速支持企業靈活調用。”云測數據總經理賈宇航如是說。
標準化,意味著更高的效率,對于無人駕駛來講,技術日新月異,行業變革速度很快,高效率的交付質量,保證了時效性,智能汽車現在是OTA遠程升級,早日升級保證了用戶體驗,以及產品競爭力。
在談擎說AI看來,對于云測數據來講,其技術能力是產品化和產品標準化的前提。對于數據標注行業來講,標準化,也將促進智能駕駛數據標注市場的開拓和發展。
最后是數據安全。
從數據的采集、數據的標注,再到數據的管理,每一個環節都必須保證數據不被泄露、不被竊取。不少企業放棄公有云,通過私有云部署、內外網絡隔離、實時數據流量監控等方式進行。
在談擎說AI看來,如果說數據標注的效率、質量是一個數據標注企業的上限,那么數據安全則是一個企業的下限,上限決定了企業的天花板,下限則決定了能否站在數據標注的舞臺之上。自動駕駛數據養料的質量,決定著無人駕駛企業的競爭力,是企業的基石。算法、算力具有非獨家性,數據卻是獨家的,保證數據安全的基礎上,對數據的充分利用,將是決定未來商業化進展的關鍵一環。
//升級賦能:卷自己推動行業發展
Grand View Research預計,到2027年,全球無人駕駛數據標注市場年均復合增長率為28.8%。為了更好的適應、引領這個蓬勃發展的賽道,云測數據發布云測數據智能駕駛數據解決方案2.0,全新升級。
這次的2.0版本主要是圍繞以下三個方面:
升級賦能:以集成數據底座為核心,全面升級數據標注及數據管理工具鏈。
升級賦能:升級人工標注與自動標注交互能力,全面提升數據標注效率。
升級賦能:針對特定算法類型的數據持續優化迭代,并納入更多場景數據。
對于此次2.0版本,云測數據總經理賈宇航給出了自己的理解:
首先:2.0版本,這一次迭代會有一個新的出發點。目前整個的智能駕駛行業處于規模量產階段,對于不少智駕企業已經在逐漸的搭建自己的數據系統、數據閉環,云測數據更加強調去幫助企業在系統集成性、數據流轉的層面的優化,這個是升級的第一點。
其次:云測數據智能駕駛數據解決方案2.0集成了不同模型的預標注能力,包括圖像整幀、自選物體、區域、點云批次識別和文本識別等,重新定義了基于預標注的人工標注效能,如能效看板、綜合看版等。
最后:我們看到了越來越多傳感器融合等相關的技術在自動駕駛中應用,此次升級的2.0方案針對特定算法類型的數據持續優化迭代,涵蓋點云4D疊幀、語義分割聯合標注和智能ID軌跡預測。數據集也更加豐富,納入了更多場景數據,標注方法也從原來以點線面體為主進化到融合4D標注規則和標注工藝。在服務方面,數據標注精度、反饋給企業的時效性有了大幅提升。
在談擎說AI看來,云測數據智能駕駛數據解決方案2.0,將對行業產生以下影響:
1 服務智能駕駛企業的門檻在提升,如今大模型時代,如何借助工具提升效率、更好的為智駕客戶賦能,需要AI數據服務具備敏銳的洞察力和精進的技術研發能力,才能夠及時識別和把握新行業發展趨勢,取得領先優勢。
2 數據標注行業良莠不齊,云測數據的智能駕駛數據解決方案2.0為行業提供了可供參考的服務標準,推動行業發展走向規范化的新階段,通過提供高質量、高效率的方案來解決自動駕駛產業落地的數據需求,為無人駕駛賽道發展保駕護航,夯實了這個行業的地基。
3 伴隨汽車智能化演進,輔助駕駛、智能泊車等功能正日趨成熟。對于汽車的智能功能而言,決定一項功能用戶體驗的好壞、是否成為賣點,需要反復精細打磨產品、提升產品質量,而作為實現AI功能的上游數據訓練環節,需要高效、高質的AI數據支撐,從而打造出用戶體驗良好、具備差異化優勢的智能應用。
對于智駕賽道而言,是典型的木桶理論,團隊協助、管理能力、數據、算力儲備、缺一不可。但如果說從底層邏輯來看,數據更為重要。業界大牛陸奇曾不止一次在公眾場合表示,數據是人工智能時代的核心產能。如何挖掘數據價值,不啻為智駕企業的核心要義。
//大模型時代:數據標注賽道將走向何方?
要說當下最火的賽道,無疑是大模型,現在的科技圈進入了百模大戰。AI數據影響、甚至是決定著AI的質量,同時人工智能的快速發展,也在影響著AI數據標注賽道。
"人工標注和自動標注后的人工審核校驗和微調,這是未來的一種業態。在這個趨勢下,自動標注的數據量的占比可能會越來越高。其實這里邊會發現有一個很有意思的概念,就是自動標注的占比可能會越來越高,人工標注的占比可能會相對會減少,但是整個的數據的需要、標注的數據量是在逐漸的增大的,所以人工標注的需求量還是增加的、處于攀升的過程之中。"云測數據總經理賈宇航對談擎說AI表示道。
對于大模型熱,云測數據有著自己的思考,不是一味的跟風也不是對新技術置之不理,而是更好的結合:第一點是云測數據的工具與大模型做更好的結合;第二點布局則是針對這些大模型相關企業,云測數據持續精進為其提供對應的場景化數據。
在談擎說AI看來,大模型的本質是為了提升效率,高質量交付,為客戶賦能。作為工具類產品,要更快能適用新的體系,為客戶賦能,更好的耦合客戶的系統,不是拿著錘子找釘子,大模型火了就盲目跟進,而是根據需求,去開發適用于企業的應用。
縱觀整個出行領域,從傳統汽車到智能汽車,底層邏輯是從制造驅動到數據驅動的產品革命,數據是當下的核心驅動力,得數據者得天下,為智駕企業做好賦能,也是對中國乃至全球汽車產業進化的有利助攻。
· 談擎說AI出品 ·
· 未經授權 謝絕轉載 ·
· 歡迎分享到朋友圈哦 ·
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.