由人工智慧驱动的设计应用
英文原文:
2024年3月12日於《Semiconductor Engineering》刊登
偵測劣化缺陷(degrading defects)何時會對晶片的有效壽命造成影響
確保可靠性、可用性和可維護性(RAS)與晶片设计息息相關,長期以來一直是許多類型電子系統的重要考慮因素。顯而易見地,軍用硬體必須非常可靠,而伺服器和汽車系統也被預期需要具備能持續提供服务的效能。然而某些程度的故障是不可避免的,因此能夠修復、避免或減輕故障也是非常重要的。近年來,對於RAS的需求不斷增加,達成目標指標的能力成為一個日益增長的挑戰。
這個演變是由很多因素造成的。如今大型晶片的龐大規模增加设计複雜性,而製造它們所需的先進製程具有極高的電晶體密度和更大的製造變異性。在最大化性能的任務中,內在和外在的劣化(degradation) 對晶片生命週期的不同階段的健康狀況造成的影響比預期更嚴重,成為現階段更大的問題,;而越來越廣為採用的多晶粒封裝也增加更多跟散熱相關的問題。
在系统层级上,硬体与软体的紧密整合导致新的漏洞,并增加威胁。各种应用程式的工作负载是不可预测的,且对峰值要求越来越高。儘管面临这些挑战,对搁础厂的期望值正在增加,目标也不断变得更加严格。用者对设备、软体和系统的可靠、安全和稳定执行要求更好的保证,传统的製造测试和执行时进行诊断已经不再足够。
對於超大規模晶片设计而言,首要的RAS問題是靜態資料損毀(Silent Data Corruption, SDC),即整個系統未能檢測到的數據資料錯誤。錯誤可能被掩蓋並且沒有造成問題,但一旦錯誤擴增,可能導致系統或應用程序損壞或當機,或是導致應用程序的結果不正確。這些結果中的任何一個都可能嚴重損壞RAS指標。不可用性和錯誤答案都是高度不理想的結果。
厂顿颁的来源包括永久性、间歇性、暂时性和劣化性故障。根本原因可能是外部製造缺陷、内在的硅晶老化或辐射诱发的瞬间错误。严重的缺陷很容易被製造测试侦测到,但微小的缺陷可能会产生电路边缘效应,只在某些操作条件的特定组合下发生故障。一些潜在缺陷在晶片已经在现场运作一段时间后才会出现。微小缺陷和潜在缺陷在製造过程中不容易侦测到。
在20奈米以下製程中使用蹿颈苍贵贰罢技术的惊人特性凸显强在晶片执行任务期间,侦测错误并避免现场厂顿颁事件的重要性。如上图所示,劣化缺陷会转移到晶片的可用寿命中。防止这些缺陷引起厂顿颁事件非常重要。幸运的是,可以通过监控关键时间和电压参数是否超过预定的临界值(迟丑谤别蝉丑辞濒诲)来侦测此类缺陷并预测即将发生的故障。
由於關鍵的錯誤機制在現場是以時序問題顯現,因此對於潛在錯誤的最佳預測因子之一是減少時序餘裕。監控晶片中的環境變化、應用程序壓力,並隨著時間的推移追蹤關鍵速度路徑的時序餘裕變化,可以對SDC事件進行預測。在任務模式下監控時序路徑的預測解决方案可以用於偵測劣化缺陷,並在故障發生之前預測剩餘的使用壽命(remaining useful life, RUL)。RUL是根據與參考基線的相較之後測得的定時劣化率計算得出的數值。
在現場操作期間監控電壓和時序是關注晶片內部發生什麼情況的兩個重要範例。這是晶片生命週期管理(SLM)的關鍵部分,從设计、製造、現場部署延伸到生命週期的結束。在晶片的現場部署期間成功使用SLM技術需要軟體對個別晶片和大量的晶片進行分析,進而偵測到異常值。收集有關晶片狀態的數據需要一組IP來監控Vmin、时序及更多的参数。
新思科技晶片生命週期管理套件提供SLM各階段的完整解决方案,包括晶片內監測,以預測即將發生的故障並避免SDC。使用新思科技 SLM IP的過程包括四個步驟:
由於監控器驅動整個四步驟流程,因此需要各種嵌入式SLM IP以達成預期的所有效益。解决方案的關鍵元素包括路徑邊緣監控器(PMM)、時脈和延遲監控器(CDM)、製程、溫度和電壓(PVT)監控器、信號監控器、AXI匯流排監控器、環形振盪器和錯誤校正碼(ECC)邏輯。這些IP以及支援的分析軟體讓我們能夠:
根據計算出的RUL,SLM解决方案可以識別元件或系統可能失敗的時間點,並採取行動來預防。透過在它們導致SDC事件之前識別潛在問題,來提高系統的可靠性和可用性。這有助於應用於汽車和超大型数据中心等要求嚴格的應用來達到目標指標,同時降低維護成本,提高整體營運效率。除了前面提到的種種挑戰之外,這也滿足了消費者對更好RAS的需求。
總之,傳統的製造測試無法找到所有缺陷或在現場防止SDC事件的發生。利用加強的RAS功能,高性能和關鍵應用的需求提高硬體組件的韌性。大型、複雜、深次微米的设计增加因應這一挑戰的難度,需要在整個晶片生命週期中採取设计、架構和測試方面的緩解措施,並遵循最佳操作執行方式。
一個有效的晶片生命週期管理解决方案可以通過改善晶片健康和營運指標來因應這些挑戰。包括SLM IP在內的新思科技 SLM套件,能夠滿足針對嚴苛應用的性能和RAS要求,並提供必要的監測和檢測功能,以增強現場製造品質和产物完整性。欲瞭解更多關於草榴社区晶片生命週期管理解决方案的資訊,可前往新思科技厂尝惭专页查询。