合作案例亮點：使用NVIDIA A100 GPU 強化新思科技 PrimeSim 電路模拟

Go Back

DSO.ai

由人工智慧驱动的设计应用

瞭解更多

晶片生命週期管理 (SLM)

下载白皮书

晶片设计、验证及製造

新思科技是晶片设计自動化解决方案與服务的領導品牌

硅智财(厂滨笔)

在介面滨笔、基礎IP及實體層 IP 領域排名第一

探索系統验证與確認解决方案

領先業界的硬體輔助验证及虛擬化解决方案

系统测试生成

总览

资源

Success Stories

瞭解更多

合作案例亮點：使用NVIDIA A100 GPU 強化新思科技 PrimeSim 電路模拟

本文原文由张贴

英文原文：

在過去十年裡，GPU技術的進展令人超乎想像。GPU最初常用於渲染(render)圖形和影片，無論是在平板上玩互動遊戲還是看電影，都是受益於GPU的功能；然而，現在GPU應用已進階至深度學習及人工智慧等高效能运算(贬笔颁)領域。事實上，HPC產業正朝向加速運算模型發展，而在GPU上進行密集計算，將得以實現更快的實際執行時間。

隨著半導體製程技術持續進步和不斷增加的電路複雜性，電路模拟現在正面臨著更大的挑戰，特別是在模拟成本、品質和結果時間層面。為了解決這些挑戰，並確保晶片經過完整验证，使用者需要一個具備先進GPU效能擴展的統一流程。

GPU是加速電路模拟和签核的理想選擇

隨著CPU效能提升幅度趨於平穩，GPU成為了加速電路模拟和签核流程的理想選擇。在具有數千萬或數億元件的各種電路類型(PLLs、SerDes、SRAMs、PHY)中，GPU可以提升10倍的模拟運行時間，如圖1所示。

圖 1：使用V100 GPU 後的效能提升

新思科技PrimeSim Continuum 現已升級，搭載NVIDIA Ampere Tensor 核心 A100 GPU

新思科技 PrimeSim? Continuum提供獨特的下一代CPU-GPU混合架構，可顯著提高效能，同時滿足當今先進應用的签核準確度要求。

PrimeSim模拟器最初推出時採用NVIDIA V100 GPU，而目前的最新版本 (2021年9月)則已搭載架構。2020年推出的Ampere A100是NVIDIA最新款的GPU。傳統的HPC工作負載，如電路模拟，持續需要更多的雙精度運算效能和记忆体頻寬。利用通用矩陣乘法(GEMM, General Matrix-Matrix Multiplication)加速的架構概念，A100納入了Tensor 核心針對雙精度FP64資料類型的支援，將GPU峰值效能提升到19.5 TFLOPS。表1比較了Ampere A100 (2020)與其部署於資料中心的前代产物Volta V100 (2017) GPU的關鍵屬性。

	Volta V100	Ampere A100	Increase
FP64	7.8 TFLOPS	19.5 TFLOPS	2.5x
DRAM Bandwidth	900 GB/s	2,000 GB/s	2.2x
NVLink Bandwidth	300 GB/s	600 GB/s	2x
L2 Capacity	6 MB	40 MB	6.7x
DRAM Capacity	32 GB	80 GB	2.5x

表 1：V100和A100 GPU的關鍵屬性比較

Ampere極大幅地提高了關鍵硬體屬性中的每一個項目，包括5倍的FP16產出量(throughput)，2.2倍的DRAM頻寬，以及6.7倍的on-chip L2快取记忆体。除了大規模的平行計算產出量和记忆体頻寬，Ampere架構還包括可加速機器學習和HPC應用的硬體支援，例如，Tensor 核心所支援的結構化稀疏(sparsity)。在记忆体系統中，A100提供一系列的功能，以更好地控制資料的移動和放置。A100在傳輸資料時可直接將记忆体階層結構轉移到共用记忆体，無需透過暫存器檔案(register file)。此外，A100還提供了一套新的L2快取记忆体控制操作，允許程式设计師執行快取记忆体的替換策略，並有效地決定將哪些資料結構留在快取记忆体中。最後，L2快取记忆体具備硬體支援的資料壓縮，得以在DRAM和L2中保持壓縮狀態以節省頻寬和容量，並在傳輸到串流多處理器(Streaming Multiprocessor, SM）時進行解壓縮或壓縮。

支持 Ampere A100 架構的PrimeSim 具備以下優勢：

串流多處理器數量增加了35%，從 80 個提升到 108個
支持能夠執行 FP64 運算的 Tensor核心
L1和L2快取记忆体分別增加 2 倍和 6.7 倍
记忆体頻寬增加2 倍，從900 GB/s 提升至2 TB/s

隨著現代製程節點產生更多裝置數量，SPICE模拟器的兩個最重要任務在於模型評估和矩陣解法。擁有更多串流多處理器，對於具有龐大電晶體數量的大型電路網表將可以帶來直接助益。每個串流多處理器都是一個雙精度計算單元，能夠並行運行數千個線程，如此將能並行進行大量的設備評估。更大的L1和L2快取记忆体意味著更少的資料交換次數，亦有助於縮短模拟時間。

一般而言，電路網表中存在越多寄生元件，將會產生更密集的矩陣，由於處理這些矩陣需要運用大量的雙精度浮點運算，因此計算成本十分高昂。在此情況下，串流多處理器中的Tensor核心將可帶來強化效能，A100擁有高達19.5 TFLOPs的運算能力，可以絕佳高效能處理密集矩陣。由於A100 GPU具備前述增強功能，在相同案例中選用CPU及GPU最佳組合，A100-40GB GPU與V100 GPU相比，前者平均效能可提升50%，如圖2所示。

圖 2：A100 GPU 與 V100 GPU 相比之下的效能提升

利用 GPU 來實現SPICE 準確度

以SPICE級別準確度來模拟大型電路的需求日益增加。這些類比和混合訊號模拟通常過於耗時，而且在許多情況下，這些模拟無法以使用者需要的準確度水準運作。PrimeSim Continuum將會是另一種選擇－借助GPU異質加速計算架構的力量，將有助於解決極具挑戰性的電路模拟，以實現SPICE級別的準確度签核，進而將執行時間從幾天或幾周縮短到幾小時之內。這也是讓使用者在不影響準確度的情況下，有效鑑別设计效能的實用方法。

更多部落格文章

NEW 運用Arm架構虛擬原型设计，為邊緣軟體開發帶來變革

NEW 新思科技HAPS-200 與 ZeBu-200 擴展業界最高效能的硬體輔助验证产物組合

應用新思科技光學解决方案打造卓越的 AR/VR 顯示系統

以業界第一套超乙太网路和 UALink IP 解决方案賦能大量的AI叢集

公司採用生成式人工智慧的投報率是多少? 草榴社区 Copilot預期能增加 25 萬小時的工時

案例分享 - Credo Semiconductor 運用AI加速類比设计遷移

新闻集锦

NEW 新思科技運用輝達Grace Blackwell與AI來加速晶片设计並提升電子设计自動化的技術

NEW 新思科技推出業界最高效能的硬體輔助验证产物推進次世代半導體與设计創新

新思科技發表業界第一套超乙太网路與UALink IP解决方案可連結大量的AI加速器叢集

新思科技榮獲2024全球公司永續獎(GCSA)雙項殊榮展現半導體及IC设计人才永續發展新典範