把NPU放進MCU,已經不是什么新鮮事,但STM32好像來得一直有點慢。早在2022年,ST就曾宣布,STM32N6將成為ST首個加入NPU的產品。而后,在Embedded World 2023 上,ST又展示了這款產品。對工程師來說,這款產品一直非常神秘,又非常誘人,畢竟能跑AI的STM32誰不想試一試。
最近,關于STM32N6有了確切的消息,今年年底或亮相STM32峰會(報名鏈接: https://bbs.eeworld.com.cn/thread-1299660-1-1.html ),同時在近期放出了更多細節。
意法半導體微控制器、數字和射頻產品部總裁Remi El-Ouazzane更是霸氣地說道:“意法半導體是‘微型邊緣人工智能之王’。”
付斌|作者
電子工程世界(ID:EEWorldbbs)|出品
STM32N6有什么細節值得關注
首先,ST對于STM32N6這一產品披露了更多細節。
El-Ouazzane表示ST在大約30個月前宣布了STM32N6,它已經在開發中,并被全球50多家客戶采用,反饋非常好。他更是立下了豪情壯志,預計STM32N6將成為ST收入最快達到1億美元的產品之一。
“STM32N6的推出可能是AI出現后第三次推出開創性的產品。前兩個是2016年推出的 Nvidia的Pascal,表明GPU可用于AI,以及Apple于2017年推出的A11仿生芯片,這是第一個為AI提供硬件支持的應用處理器。”
如此自信并非沒有原因,根據El-Ouazzane介紹,ST的微控制器客戶群中AI MCU應用強勁增長,2024年前9個月通過公司的邊緣AI開發工具啟動了超過51000個活躍項目,是上一年的三倍。
雖然ST沒有說明推出這些內核的時間表或可能采用的制造工藝技術,但EEWorld在ST的官方頁面中找到了其中一些細節:
STM32N6是ST首款集成自研硬件NPU神經網絡硬件處理單元的通用微控制器,其算力可達0.6TOPS(每秒0.6萬億次運算)。STM32N6還集成了新IP和視頻外設,如MIPI CSI攝像機、機器視覺圖像信號處理器(ISP)、H.264視頻編碼器和支持時間敏感網絡(TSN)端點的千兆以太網控制器。此外,STM32N6是一款通用STM32產品,符合工業客戶的所有要求,包括在高溫環境中工作。
其次在NPU方面,ST也公布了自己的路線圖。
ST在自研NPU已經不是什么秘密。El-Ouazzane表示:“ST在微控制器中的通用處理內核方面與Arm緊密合作,但與一些較小的微控制器供應商不同,ST選擇不使用Arm提供的AI硬件內核。”EEWorld認為,很多有實力的廠商都選擇了自研NPU,比如NXP就從Arm Ethos轉到自研,畢竟NPU屬于AI MCU的核心科技,自己做可以更貼合自己的產品線,也能打造更好的生態。而且不光MCU要用NPU,MPU、跨界MCU之類的產品也要用NPU。
三年前,意法半導體開發了第一款神經網絡加速器Neural-ART 1,作為STM32N6微控制器的內核。其最大性能為4.6 TOPS,能效為1~5TOPS/W,具體取決于應用。這是基于使用INT8數據類型。
El-Ouazzane說:“我們的路線圖是進一步發展第二代數字內存計算D-IMC,這將帶來比第一代 4 倍的性能提升,我們預計第三代的性能將比第二代再提升10倍。“帶有D-IMC的Neural-ART 2將能夠達到18TOPS和20~40TOPS/W的幻燈片,Neural-ART 3被描述為具有混合架構和50+ TOPS/W的性能。同樣,據說性能是針對 INT8 數據類型的。
最后再來復盤一下STM32的Portfolio,其中包括價格和8位MCU媲美的STM32C0系列,STMU0、U5這樣的低功耗MCU,STM32WBA這樣的專注無線的MCU,高性能的STM32H7以及更高性能的STM32MP2 MPU,STM32N6則定位高性能MCU。
目前,ST已經建立了傳感、音頻、詩句NANOEDGE AI STUDIO、STM32 Cube.AI以及硬件的完整生態,保證開發者能夠在MCU和MPU上優化和運行AI模型,幫助工業用戶快速落地。
NXP的RT700和i.MX 94相繼登場
恩智浦10月推出了擁有NPU的跨界MCU i.MX RT700,至此,恩智浦MCU、跨界MCU、應用處理器三大系列均擁有了NPU。也就是說,恩智浦整個產品線都內置了AI/ML加速器功能,算力覆蓋從10G到幾T TOPS。
R700相比于前代產品,提升幅度非常之大,可以說是“降維打擊”,早在發布之前就引發了工程師群體的討論。相比上一代產品,其在邊緣提供高達172倍的速度提升和119倍的節能,同時功耗比上一代產品降低了30~70%。
通過與前代對比,不難發現RT700整體設計更傾向于把特定工作分流于其他子系統,從而獲得更好的功耗和效率。RT700主要包括三個子系統,包括額外的一個M33+DSP的“傳感計算子系統“,一個eIQ Neutron NPU的AI子系統,一個基于RISC-V的2.5D GPU的圖像子系統(可通過LCD或MIPI提供720p@60Hz)。
不止如此,RT700還將主CPU的 M33內核頻率提升到325 MHz (RT500為200 MHz, RT600為300 MHz);將片上SRAM最高增加到7.5 MB (RT500最高5 MB, RT600為4.5 MB),減少對于外部存儲的訪問,以防止耗電;針對可穿戴設備應用,首次支持eUSB(嵌入式USB),提供比原來USB更好的安全和加密性能。
緊接著在11月20日,NXP發布i.MX 94系列應用處理器,成為首個集成以太網時間敏感網絡(TSN)交換機的i.MX應用處理器系列,結合實時處理與工業網絡協議支持,實現工業控制。
i.MX 94系列64位應用處理器采用多核設計,最多配備四個Cortex-A55內核,兩個Cortex-M33內核和兩個Cortex-M7內核,用于增強實時處理能力。NPU方面,恩智浦的eIQ Neutron NPU具備0.5 TOPS的機器學習性能,可提供實時預測性維護和操作指導以及缺陷掃描和機器診斷。
值得關注的是,i.MX 94系列率先集成2.5 Gbps以太網TSN交換機,兼備快速初始化和低功耗模式支持。支持等多種工業協議,涵蓋傳統實現及新開發協議,如OPC-UA FX和OPC-UA PubSub等。支持傳統的串行現場總線協議,如Profibus、Modbus、CANopen和IO-Link,以及基于以太網的實時網絡協議,如Profinet、EtherCAT、Ethernet/IP和CC-Link等。此外,還支持這些協議的TSN實現,包括AVB/TSN、以太網OPC-UA和Profinet Over TSN等。
TI給C2000塞了個NPU
TI在最近也推出了搭載NPU的C2000產品TMS320F28P55x系列(簡稱F28P55x系列),并號稱是業界首款具有集成神經處理單元(NPU)的實時微控制器產品。
F28P55x的NPU具有600~1200MOPS(每秒百萬操作)的能力(600MOPS at 75MHz on 8bWx8bD,1200MOPS at 75MHz on 4bWx8bD),與僅基于軟件的實現相比,最多可提供10倍的NN推理周期改進。這個算力看似很低,但要知道,C2000本身是比較專的MCU,所以不是追求多少TOPS的產品,其在頻率上的表現非常亮眼,達到了75MHz。
實時內核則采用C28x系列的32位150MHz DSP MCU,通過浮點單元(FPU)、三角函數數學單元(TMU)和VCRC(循環冗余檢查)擴展指令集得到進一步增強,加快了實時控制系統中關鍵的通用算法的速度;擁有獨立的32位浮點加速器150MHZ CLA,其擁有專用內存資源,可以直接訪問典型控制系統中所需的鍵外圍設備。
帶NPU怎么用?根據TI的說法,過去在電弧檢測和預測性維護上面,都是用軟件做,同時還要專門的MCU。而現在,C2000上配備一個NPU,在單芯片上就能做一些專用的AI算法,可以幫助系統實現超過99%的故障檢測準確率。比雙芯片解決方案更簡潔,準確率更高。
英飛凌有自研也有Arm Ethos
今年4月,英飛凌發布新一代PSOC Edge產品組合。從具體產品來看,有用Arm NPU的,也有自家神經網絡加速器:PSOC Edge E83和E84內置Arm Ethos -U55 NPU處理器,
E81采用Arm Helium DSP技術和英飛凌NNLite神經網絡(NN)加速器(一種用于加速神經網絡的專有硬件加速器)。
PSoC Edge器件搭載高性能Arm Cortex-M55 ,包括與Arm Ethos-U55 和 Cortex-M33配對的Helium DSP支持,以及英飛凌的超低網絡神經網絡加速器。引線器件采用超低功耗22nm嵌入式RRAM 技術。
PSoC Edge E83和E84內置Arm Ethos-U55微型NPU處理器,與現有的Cortex-M系統相比,其機器學習性能提升了480倍,并且它們支持英飛凌NNlite神經網絡加速器,適用于低功耗計算領域的機器學習應用。
從應用角度來看,使用E81 MCU可以實現基本功能,如LCD顯示和基于云的語音識別。而對于更高級的恒溫器,設計人員可以選擇E83 MCU,實現本地語音識別和更多的智能功能。最高端的設備則可以選擇E84 MCU,實現更復雜的功能,如手勢和運動控制、圖形用戶界面等。
Alif:NPU、Matter、BLE 5.3全都要
今年4月,Alif也更新了一款非常強大的MCU,Ballett系列,據稱這是第一個包含藍牙低功耗 (BLE) 、Matter 以及神經處理單元 (NPU) 加速器的微控制器,用于機器學習和人工智能(ML 和 AI)工作負載。
Alif總裁兼聯合創始人Reza Kazerounian在談到該產品時表示:“Alif Semiconductor 的 Balletto 系列產品旨在通過適應高比特率音頻和 Matter 生態系統的平臺,應對當今無線音頻和智能家居行業面臨的BLE挑戰。隨著多協議支持的推出,再加上我們行業領先的AI/ML 支持的MCU,構建電池壽命友好的互聯智能邊緣設備變得更為簡單。”
Balletto芯片圍繞Arm Cortex-M55內核構建,具有Helium矢量處理擴展(運行頻率高達 160MHz)和 Ethos-U55 神經處理單元 (NPU) 協處理器,Alif 表示,每個芯片可提供高達 46GOPS算力。這些部件還包括用于安全任務的專用Arm Cortex-M0+芯片,以及處理網絡堆棧的RISC-V內核。
該網絡堆棧連接到藍牙5.3低功耗 (BLE) 和IEEE 802.15.4.2011射頻,后者支持Matter 智能家居標準,前者包括BLE音頻和Auracast 功能——在該公司提出的一個用例中得到了充分證明,可應用于真無線立體聲 (TWS) 耳機和助聽器中。Alif 還表示,Balletto部件可能是可穿戴設備的理想選擇。
該芯片的其他功能包括高達2MB的零等待狀SRAM和2MB MRAM、SPI接口、I3C、USB 高速、兩個CAN FD通道、DAC和24位 Σ-Δ 模數轉換器 (ADC) 的模擬前端、具有 2D 圖形處理器的攝像頭和顯示接口,以及多達77個GPIO引腳。
從官網上,我們還看到,Alif已經在設計采用Ethos-U85的下一代產品。根據Alif的說法,由于認識到Ethos-U85的潛力,Alif成為首批在Arm發布該技術時獲得許可的合作伙伴之一。
據了解,與上一代產品相比,Ethos-U85性能提升四倍,能效提高20%,同時,其MAC單元可從128個擴展到2048個(在1GHz 時,算力實現4 TOPs),能夠為諸如工廠自動化和商用或智能家居攝像頭等需要更高性能的應用提供有力的支持。
參考文獻
[1]ST: https://www.stmcu.com.cn/mkt_info/3012
[2]EEnews: https://www.eenewseurope.com/en/st-adds-to-roadmap-for-ai-capable-microcontrollers/
歡迎將我們設為“星標”,這樣才能第一時間收到推送消息。
免費領取Autosar入門與實踐資料包!
掃碼添加小助手回復“進群”
和電子工程師們面對面交流經驗
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.