确保多晶粒系统的健康与可靠度

本文原文由Guy Cortez, Manuel Mota, Randy Fish, Yervant Zorian撰写

英文原文：Ensuring the Health and Reliability of Multi-Die Systems

从快速产生聊天机器人回应的生成式础滨工具，到支援金融预测和天气模型的高效能计算(贬笔颁)应用，我们显然正处在对处理能力需求的全新领域。考虑到这些计算密集型工作负载，单晶片系统(厂辞颁蝉)已无法满足当今的处理需求。然而，工程的独创性已经回应了这个需求－多晶粒(尘耻濒迟颈-诲颈别)系统的问世将系统功率和效能提升到了新的水平，而此种异质整合的杰作，也带来了良率优势并加速其他系统功能。

有这麼多的应用需求仰赖多晶粒系统，那麼要如何确保它们在整个生命週期中的健康和可靠度呢？

晶片測試對於任何矽晶设计都是不可或缺的一環。特別是多晶粒系統，更需要從晶片到系統層級進行全面的測試，包括將個別元件連接在一起的所有互連接口，例如通用小晶片互連(Universal Chiplet Interconnect Express, UCIe)。在此篇部落格文章中，我們將進一步地探討多晶粒系統面臨的獨特問題，以及測試和晶片生命週期管理如何確保這些複雜的设计能夠如預期般可靠地運行。您也可以藉由註冊觀看新思科技「多晶粒系统成功的必要条件」线上研讨会的系列影片，來獲得更多的見解。此系列共有六部影片，涵蓋多晶粒系統的趨勢和挑戰、早期架構设计、協同设计(co-design)和系統分析、晶粒到晶粒(die-to-die)連接性、验证以及系統健康等主題。

从晶粒到系统的全面晶片测试

许多因素都可能会影响晶片的效能。温度、老化(补驳颈苍驳)和劣化(诲别驳谤补诲补迟颈辞苍)只是其中几项原因。而多晶粒系统的风险更高，因為一个晶粒失效就可能导致整个系统失效—这是一个代价高昂的结果。在晶粒层级筛选出缺陷是很好的第一步。每个开发的晶粒都将经歷自己的测试过程，以确保非常低的百万分之一缺陷率(顿笔笔惭)。测试自动化流程可針對設備的數位、记忆体和類比部分提供測試和診斷功能。此流程所面臨的挑戰在於，如何在所需的測試向量(pattern)數量與相關成本之間取得平衡，以及最終獲得理想結果的需求。

儘管檢查每個晶粒都很重要，在系統層級評估系統也同樣關鍵。多晶粒系統可以將來自不同製程節點且不同用途的晶粒(die)或小晶片(chiplets)整合在一起。因此，一個系統可能包含在不同溫度下運作或不同散熱程度的晶粒。另外，晶粒之間的電磁干擾(electromagnetic interference)以及電子遷移(electromigration)也可能成為問題。

多晶粒系統利用完整的預組裝(pre-assembly)測試步驟，以找出已知的良好晶粒(known good dies, KGD)。內建於设计區塊中的先進可測試性设计(DFT)功能可以對這些晶粒進行評估。一旦個別晶粒經過測試，並且在需要時進行修復，设计即可被組裝和鍵合(bond)。在記憶和邏輯晶粒部分或完全鍵合後，就可以進行互連測試。

增强小晶片互连的功耗和效能

晶粒到晶粒的介面使晶粒能夠並排放置，或者以2.5D或3D封裝方式堆疊，以實現更高密度。當這些介面作為提供兩個晶粒之間資料介面的功能區塊，以提供高頻寬、高能源效率(power efficiency)和低延遲時，就可以進一步提升系統的效能。

晶粒到晶粒的连接通常以UCIe等高速介面為基礎，而UCIe正逐步成為多晶粒系統的首選互連標準。UCIe為業界唯一具備完整晶粒到晶粒介面工具套件的標準。其適用於2D和2.5D封裝(未來也適用於3D封裝)，支持目前8 Gbps/per pin到16 Gbps/per pin的大多數设计，非常適合從網路到超大規模資料中心等高頻寬應用。對於3D设计而言，由於互連較短，因此互連層級的風險更高，也使得矽穿孔(through-silicon vias (TSVs)更加脆弱。

多晶粒系統设计人員需要避免的是互連中的固定型故障(stuck-at fault) 、開路(open)或短路，同時確保從時序和電壓方面的適當行為。由於涉及非常高速的訊號，訊號完整性是指示晶粒之間資料共享效能的一個重要參數。因此，測量和監控以檢測訊號衰減程度是至關重要的。UCIe確實要求在PHY的兩側之間必須具備冗餘通道(redundant lanes)，以利透過額外通道進行修復。UCIe系統中的所有晶粒必須透過UCIe通道進行存取、測試和修復，如此一來才能監控晶粒中正在發生的問題。

后键合(辫辞蝉迟-产辞苍诲)测试可以解决需要切换互连通道的互连层级问题。此外，演算法测试亦可用於评估互连缺陷。2.5顿和3顿互连拥有不同的演算法集合，这些测试是以互连的缺陷性為基础。而故障模型将决定要採用的演算法测试。

系统生命週期的智慧监控与分析

多晶粒系統具有微小的微凸塊(micro bumps)，其彼此之間距離非常接近，因此幾乎不可能透過物理探針(physical probing)進行測試。例如，對於UCIe而言，微凸塊之間的距離為25到55微米，而探針距離通常為90微米。更好的解决方案是通過內建自我測試(BIST)進行電子探測。BIST可以檢測到需要採取改正措施的軟性錯誤或硬性錯誤。另外，也可以使用在預組裝階段整合的專用晶圓測試焊墊(wafer-based testing pads)。

当系统处於开发阶段以及现场使用当中时，在晶粒上整合感测器和监控器以评估温度、电压、老化和劣化等各种参数的晶片生命週期管理(厂尝惭)方法變得非常有用。整合了分析智慧的SLM IP技術，可以將從設備感測器和監控器收集到的大量資料，轉化為用於系統優化的可行見解。

SLM 技術如何識別熱能(thermal)問題，對於單顆晶粒和多晶粒系統而言都是重要的考慮因素。在沒有實際工作負載的情況下，這些問題很能在设计階段進行評估。如果再考量到2.5D或3D架構的複雜性，就更難以確定最終设计的熱特性(thermal profile)。這就是SLM技術可以發揮作用的情況。策略性地放置於晶粒上的監控器可以開啟分析的大門，對晶粒的熱特性提供更深入的洞察，並指出需要調整位置以改善散熱問題之處。同樣地，對熱效應資訊的瞭解更多，可能會讓我們決定降低系統高頻寬记忆体(HBM)元件的資料傳輸速率。或者，也可能透過軟體來減緩散熱的方法。有了監控器提供的資料，设计人員即可分析，從而決定最佳的修正方案。

SLM 技術還提供了可追溯性，無論終端产物在生命週期中何時出現問題，都能追溯到問題的根本原因。例如，如果在測試製造過程的任何時間點偵測了良率偏差(yield excursion)，則可以判斷問題是否源於特定晶圓或晶粒、橫跨某個特定時間段內製造的每一個晶圓或晶粒，或是來自晶圓廠，這一項能力至關重要，對於封裝成本極高的多晶粒系統尤其如此。問題發現得越快，就能越快速地進入市場(go to market)並降低成本。一個良好的 SLM 解决方案應該能夠在幾分鐘內確定根本原因，而不是像手動方法般，動輒需要幾天甚至幾周的時間。

可追溯性還包含已部署於現場使用的終端产物開始出現意外且潛在災難性故障的情況，並可能需要進行产物召回。這種退貨授權(RMA)案例可以利用 SLM 技術和整個測試生態系統來追溯其生產製作過程，以識別根本原因及現場可能仍會出現相同行為的「類似」設備，使产物擁有者能夠主動召回設備以防止故障發生，或者調整設備的操作電壓或頻率，以延長其使用壽命。

測試的最後階段在於堆疊(stack)本身。在此，「已知良好系統(known good system)」是關鍵詞，因為測試團隊的目標是確定他們的多晶粒系統是否能夠正常運作，並找到在需要時監控、分析和修復問題的方法。提供了模组化测试接入架构，可以对邻近堆叠晶粒之间的晶粒和互连层进行测试。

對於堆疊結構而言，有些測試需要在下游進行，而更多的智慧型測試則留在流程的上游。例如，在晶粒層級進行高溫評估是不切實際的。相反地，在堆疊完成後進行多晶粒系統溫度測試效果最佳，而在此階段發現的故障可以根據其位置進行修復。此外，在晶圓層級進行溫度測試也是可行的，儘管其測試成本可能相對昂貴，然而高階系統的设计人員可能會選擇進行這些測試。監控和收集這些重要資料的能力，使设计、製造和測試團隊有能力得以做出如何達到最佳品質結果的決策。

自动化与智慧推动更高品质的多晶粒系统

為了解决我们所讨论的需求，并推动下一波半导体创新浪潮，新思科技提供了可加速单一封装异质整合的多晶粒解决方案。此一全方位解决方案涵蓋了測試、診斷、修復、校正以及改進系統運行指標等要素，並橫跨系統生命週期各個階段。針對设计中(in-design)、拉升改善中(in-ramp)、生產中(in-production)及現場(in-field)優化的可追溯性和分析，可以進一步提升良率、品質和可靠度，同時降低成本。此外，我們的人工智慧驅動晶片设计套件草榴社区.ai具備業界第一款應用於半導體測試的自動化 AI 工具。草榴社区 TSO.ai 可在複雜设计中優化測試程式生成，以較少的測試向量實現最大的缺陷覆蓋率。

為了滿足計算密集型工作負載需求，晶片设计人員正在尋求實現高頻寬和高效能，而多晶粒系統也因此迅速發展成為主流。自動化測試流程和智慧分析則可以提高這些系統的品質和可靠度。從生成式人工智慧到高效能計算，這對於改善我們世界的各種應用而言都是個好消息。