(本文編譯自Semiconductor Engineering)
由于芯片復雜度不斷提升,芯片制造商從單片芯片轉向多芯片組件,需要進行更多次迭代,而且定制化程度不斷提高使得設計和驗證工作更加耗時,因此芯片首次流片成功率正急劇下降。
一項新的功能驗證調查中的細節(jié)凸顯出,開發(fā)既具備功能性又可靠的先進芯片,難度日益增大。在許多情況下,這些芯片尺寸比光罩大小的SoC更大,并且它們集成了多種組件和布線方案,這可能會降低其穩(wěn)定性。因此,它們需要進行更多的優(yōu)化和更多次的迭代。
這些芯片集成了更多邏輯電路,其中一些是在不同的工藝節(jié)點上開發(fā)的。它們擁有更多SRAM和更多互連線路,而這兩者的發(fā)展速度都與邏輯電路的發(fā)展速度不一致。此外,它們需要更多軟件支持,就大預言模型(LLM)和其他AI算法而言,軟件的發(fā)展速度比硬件要快得多。它們還需要復雜的散熱技術、新材料、經過高度工程化和定制化的封裝,以及更精確的、與工作負載相關的模型。更糟糕的是,它們需要的驗證比計劃允許的要多。
所有這些因素的綜合影響在最新數(shù)據(jù)中得到了證實。西門子EDA首席驗證科學家Harry Foster表示:“整個行業(yè)在實現(xiàn)首次流片成功方面已處于有史以來最低點。從歷史上看,成功率一直在30%左右。兩年前,從2023年到2024年間,這一比例下降到24%。現(xiàn)在下降至14%。這是一個數(shù)據(jù)點。另一個數(shù)據(jù)點是,從歷史上看,我們發(fā)現(xiàn)大約三分之二的項目會延期,現(xiàn)在,項目延期的比例已經上升到75%。”
圖1:功能正確且可制造的設計數(shù)量正在下降。
(圖源:西門子EDA/Wilson研究小組2024年功能驗證研究/DVCon)
在日益復雜和多層的設計流程中,每一步都需要提高生產效率。通常,這意味著要雇傭更多的工程師。而且現(xiàn)在工程師所需接受的廣泛培訓遠遠超出了過去的要求,所以這是不太現(xiàn)實的。這就是為什么EDA供應商如此專注于將AI融入到他們的工具中,基本上是通過強化學習來將相關知識進行編碼。但這種轉變仍需時間。
“我們的做法沒有起到作用,”Foster表示,“我們需要大幅提高生產效率,但這并不是很多人喜歡談論的指標,因為它很難衡量。相對容易說的是,‘這個比那個快10%’。此外,許多公司缺乏制造非常復雜芯片的技能,或者這對他們來說是新領域。在1990年代后期,每個人都在談論生產效率差距。現(xiàn)在這是生產效率差距2.0版本。現(xiàn)在的問題與20年前不同,但也有一些共同的主題。我們需要從孤立的工具集轉向更加互聯(lián)和集成的工具集。”
圖2:復雜度增加,加上生產效率差距,導致芯片的制造時間變慢。
(圖源:西門子EDA/Wilson研究小組/DVCon)
然而,生產效率問題不能完全歸咎于復雜度。即便主流芯片制造商生產芯片的速度也比過去更快。
Cadence驗證軟件高級集團總監(jiān)Matt Graham表示。“之前我們似乎都對首次流片成功有著某種程度的擔憂。但在過去的一年到一年半里,突然間每個人都在制造更多的芯片。即使是那些不以消費市場為中心的公司,比如那些為測試人員制造芯片的公司,現(xiàn)在對芯片數(shù)量的需求也達到了原來的四倍。他們從每18個月生產一款芯片,發(fā)展到現(xiàn)在每年生產四到五款芯片。這是因為一切都突然變得更加專業(yè)化了。”
這種情況經常發(fā)生在重大技術變革時期,因為此時工藝、工具和標準都需要跟上變革的步伐。“我們經常從更專業(yè)化走向更通用化,然后再回到專業(yè)化,我們似乎處于那些特定應用的周期之一,”Graham表示,“這導致每個人生產的芯片數(shù)量增加了四到五倍,但卻沒有人增加相應的人手來完成四倍數(shù)量的芯片流片工作。如果你處于技術前沿,擁有3D-IC或基于小芯片的設計,其中一個晶圓可能需要稍微改進一下。”
在前沿技術領域,變化深刻且繁多,有時還因設計而異,因此很難找出問題所在。很多這樣的設計都是為大型系統(tǒng)供應商內部使用而專門定制的,這些供應商試圖為特定的應用或數(shù)據(jù)類型突破性能極限。在這種情況下,重新流片的成本是預算過程的一部分,這也讓相關數(shù)據(jù)變得有些模糊。
新思科技系統(tǒng)設計集團戰(zhàn)略項目和系統(tǒng)解決方案執(zhí)行總監(jiān)Frank Schirrmeister表示:“對于重新流片的情況,邏輯功能仍然是最突出的問題。根據(jù)西門子EDA/Wilson研究集團的調查顯示,70%的重新流片是由于規(guī)格變更而導致的設計錯誤。這意味著有人誤解了規(guī)格要求并敲響了警鐘,因此50%的設計會進行第二輪設計。一些大型芯片制造商實際上計劃進行多達四次重新流片。所以歸根結底,這只是復雜度的問題。”
這也為EDA公司創(chuàng)造了巨大的潛在機會,特別是那些將某種類型的AI融入其工具和設計流程的公司。
“在生成式人工智能中,你有一個‘副駕駛’來協(xié)助和創(chuàng)作,”新思科技首席執(zhí)行官Sassine Ghazi在新思科技用戶大會的主題演講中表示。“借助我們與Microsoft合作開發(fā)的‘副駕駛’技術,你擁有了一個工作流程助手、知識助手和調試助手。你可以以更快的方式培養(yǎng)一名初級工程師和專家工程師。他們可以以更現(xiàn)代化、更有效、更高效的方式與我們的產品交互。然后就是創(chuàng)造性部分。我們與客戶很早就展開了合作,從RTL代碼生成、測試臺生成到測試斷言等方面,你可以擁有一個‘副駕駛’來幫助你創(chuàng)建RTL的一部分、測試臺文檔和測試斷言。”
在某些情況下,生產效率已經從過去需要數(shù)天時間縮短到現(xiàn)在只需幾分鐘。但隨著智能代理式人工智能的推出,最大的好處還在后面,它從根本上提高了整個設計和驗證流程的抽象層次。
“隨著人工智能的不斷發(fā)展,工作流程也將隨之改變,”Ghazi說道,“我們的利益相關者經常問我,我們何時才能看到人工智能給EDA市場帶來變化。我認為,除非工作流程發(fā)生變化,否則這種情況不會發(fā)生。只有當你能夠以截然不同的方式去做某些事情,從而以更快、更有效、更高效的方式交付產品時,才會看到變化。現(xiàn)在,在智能代理式人工智能時代,代理工程師將與人類工程師協(xié)作,以應對這種復雜性并改變工作流程。”
圖3:從生成式AI到代理式AI的演變。
(圖源:新思科技)
抽象問題
工程師在進行先進設計時面臨的一些最大挑戰(zhàn)在于理解設計中數(shù)百甚至數(shù)千個不同元素之間的依存關系。過去,其中一個關鍵的解決手段是實現(xiàn)硬件與軟件更緊密的集成。如今的協(xié)同設計可能包括數(shù)十甚至數(shù)百個需要獨立工作、有時需要協(xié)同工作的小芯片。為了理解所有可能的相互作用,需要進行多物理場模擬,而不僅僅是硬件與軟件的協(xié)同設計,并且協(xié)同設計現(xiàn)在還包括各種類型的互連、封裝、光子學,在某些情況下還包括更大規(guī)模的系統(tǒng)體系。
此外,所有設計都需要具備可測試性(DFT)、可制造性(DFM),并要有足夠的良品率(DFY),并且還需要有足夠的內部控制,以防止過熱。如果運行過熱且老化速度比預期的要快,則需要有重新路由信號的機制,這主要是由軟件驅動的。
“在驗證領域,我們看到軟件正越來越多地成為完整解決方案的一部分,”Cadence的Graham說道,“這不僅僅是‘我們要制造一個芯片’。現(xiàn)在的芯片是特定用途的芯片。芯片的終端市場和最終應用場景是明確的。運行于芯片上的軟件堆棧是已知的,機并且對于要搭載芯片的機器人、汽車或其他設備也有清晰的認識。而且我們需要從各個方面來考慮這些因素,我們需要考慮軟件驗證、芯片制造前的驗證,甚至可能在將其放入仿真器或原型平臺之前,就需要加快軟件方面的工作。”
一開始,到底有多少功能應歸入軟件設計,又有多少應歸入硬件設計,并不總是很明確。在復雜的設計中,微調這兩者之間的平衡是一個耗時的過程,很容易導致多次重新設計。
“軟件引入了大量的功能和特性,”Axiomise首席執(zhí)行官Ashish Darbari表示,“如果硬件團隊不完全了解這些功能特性,尤其是驗證團隊不了解的話,那么在測試內容與定義及規(guī)劃的內容之間就會存在很大的差距。這正是許多錯誤被遺漏的原因。我們進行所有這些虛擬原型設計,并盡早啟動軟件測試,以獲得一萬或十萬個模擬向量。但是,誰會關注邊界條件的呢?在一個又一個項目中,我們在最初的兩三周就發(fā)現(xiàn)所有這些錯誤案例問題,因為設計師已經沒有時間了。”
新市場,不同的關注點
這些問題遠遠超出了功能驗證和調試的范疇,而在芯片制造之前,功能驗證和調試一直占據(jù)著芯片開發(fā)時間和資源的絕大部分。在汽車、軍事/航空等安全關鍵型應用中采用更復雜的芯片,對設計提出了全新的要求。過去,這些市場都不允許使用先進制程的芯片,因為它們被認為不可靠。但隨著來自中國比亞迪和蔚來等初創(chuàng)公司,以及美國Rivian和Lucid等電動汽車初創(chuàng)公司的競爭日益激烈,老牌汽車制造商正爭相將更多功能轉移到軟件上。而這只有使用更先進的芯片和高度定制化的封裝才能實現(xiàn),并且隨著汽車制造商朝著更高水平的自動化水平邁進,這將變得越來越必要。
在這些系統(tǒng)中,安全性是一項必備要求,但任何系統(tǒng)出現(xiàn)故障都會增加安全漏洞。因此,芯片的設計需要考慮更多極端情況,從炎熱氣候下的環(huán)境熱量導致的加速老化,到真實道路狀況等。雖然其中大部分情況可以通過模擬來測試,但芯片也需要進行道路測試。如果某些問題無法通過軟件充分解決,芯片就需要重新設計。
“功能驗證會耗費你大部分時間,”Axiomise的Darbari表示,“但簡單的功耗優(yōu)化,比如將‘無關項’(X)引入設計中,很容易使某個模塊容易受到特洛伊木馬的攻擊,因為這些X現(xiàn)在在執(zhí)行框架中提供了選擇。所以在芯片中,一個X實際上要么是0要么是1。你實際上看不到X,但從模擬和行為的角度來看,這些X現(xiàn)在為終端用戶增加了綜合選擇,使他們能夠使用你不應該訪問的設計區(qū)域。所以一方面,你要進行功能驗證。另一方面,從功耗的角度來看,這些X問題被引入,然后就產生了冗余區(qū)域。在安全方面,芯片上的區(qū)域越大,暴露的風險就越高。”
整合各個部分
芯片內需要額外的芯片面積來容納更多的處理元件和更多功能,或者在某些類型的先進封裝中容納多個小芯片。但這也使得首次流片的成功變得更加困難。
“你要處理的加速器具有非常復雜的工作負載,”西門子的Foster表示,“這會在設計中引入許多非確定性,我們甚至不知道如何從語義上進行描述,因此驗證變得非常困難。其中一個挑戰(zhàn)是,我們構建了許多以工具為中心的流程,而沒有考慮到優(yōu)化所有這些流程所需的反饋回路。未來,我們需要更多具有關聯(lián)性的流程。這樣我們才能利用人工智能。一個明顯的例子是,當我在進行可測試性設計(DFT)時,發(fā)現(xiàn)‘哎呀,我無法達到故障覆蓋率要求’。所以現(xiàn)在我需要手動返回到工具流程的早期階段。所有這些回路都需要閉合。但你要去哪里找到做這件事的人呢?”
根據(jù)EDA公司以及一些領先的代工廠和OSAT的說法,答案在于新的工具、方法論,可能還包括更嚴格的設計規(guī)則和更有限的封裝選擇。但現(xiàn)在判斷這一切最終會如何發(fā)展還為時過早。變化的速度比幾年前任何人預測的都要快得多,而數(shù)據(jù)就是證明。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.