草榴社区

合作案例亮點:使用NVIDIA A100 GPU 強化新思科技 PrimeSim 電路模拟

本文原文由张贴

英文原文:

在過去十年裡,GPU技術的進展令人超乎想像。GPU最初常用於渲染(render)圖形和影片,無論是在平板上玩互動遊戲還是看電影,都是受益於GPU的功能;然而,現在GPU應用已進階至深度學習及人工智慧等高效能运算(贬笔颁)領域。事實上,HPC產業正朝向加速運算模型發展,而在GPU上進行密集計算,將得以實現更快的實際執行時間。

隨著半導體製程技術持續進步和不斷增加的電路複雜性,電路模拟現在正面臨著更大的挑戰,特別是在模拟成本、品質和結果時間層面。為了解決這些挑戰,並確保晶片經過完整验证,使用者需要一個具備先進GPU效能擴展的統一流程。

GPU是加速電路模拟和签核的理想選擇

隨著CPU效能提升幅度趨於平穩,GPU成為了加速電路模拟和签核流程的理想選擇。在具有數千萬或數億元件的各種電路類型(PLLs、SerDes、SRAMs、PHY)中,GPU可以提升10倍的模拟運行時間,如圖1所示。

圖 1:使用V100 GPU 後的效能提升

新思科技PrimeSim Continuum 現已升級,搭載NVIDIA Ampere Tensor 核心 A100 GPU

新思科技 PrimeSim? Continuum提供獨特的下一代CPU-GPU混合架構,可顯著提高效能,同時滿足當今先進應用的签核準確度要求。

PrimeSim模拟器最初推出時採用NVIDIA V100 GPU,而目前的最新版本 (2021年9月)則已搭載架構。2020年推出的Ampere A100是NVIDIA最新款的GPU。傳統的HPC工作負載,如電路模拟,持續需要更多的雙精度運算效能和记忆体頻寬。利用通用矩陣乘法(GEMM, General Matrix-Matrix Multiplication)加速的架構概念,A100納入了Tensor 核心針對雙精度FP64資料類型的支援,將GPU峰值效能提升到19.5 TFLOPS。表1比較了Ampere A100 (2020)與其部署於資料中心的前代产物Volta V100 (2017) GPU的關鍵屬性。

 

Volta V100

Ampere A100

Increase

FP64

7.8 TFLOPS

19.5 TFLOPS

2.5x

DRAM Bandwidth

900 GB/s

2,000 GB/s

2.2x

NVLink Bandwidth

300 GB/s

600 GB/s

2x

L2 Capacity

6 MB

40 MB

6.7x

DRAM Capacity

32 GB

80 GB

2.5x

表 1:V100和A100 GPU的關鍵屬性比較

Ampere極大幅地提高了關鍵硬體屬性中的每一個項目,包括5倍的FP16產出量(throughput),2.2倍的DRAM頻寬,以及6.7倍的on-chip L2快取记忆体。除了大規模的平行計算產出量和记忆体頻寬,Ampere架構還包括可加速機器學習和HPC應用的硬體支援,例如,Tensor 核心所支援的結構化稀疏(sparsity)。在记忆体系統中,A100提供一系列的功能,以更好地控制資料的移動和放置。A100在傳輸資料時可直接將记忆体階層結構轉移到共用记忆体,無需透過暫存器檔案(register file)。此外,A100還提供了一套新的L2快取记忆体控制操作,允許程式设计師執行快取记忆体的替換策略,並有效地決定將哪些資料結構留在快取记忆体中。最後,L2快取记忆体具備硬體支援的資料壓縮,得以在DRAM和L2中保持壓縮狀態以節省頻寬和容量,並在傳輸到串流多處理器(Streaming Multiprocessor, SM)時進行解壓縮或壓縮。

支持 Ampere A100 架構的PrimeSim 具備以下優勢:

  • 串流多處理器數量增加了35%,從 80 個提升到 108個
  • 支持能夠執行 FP64 運算的 Tensor核心
  • L1和L2快取记忆体分別增加 2 倍和 6.7 倍
  • 记忆体頻寬增加2 倍,從900 GB/s 提升至2 TB/s

隨著現代製程節點產生更多裝置數量,SPICE模拟器的兩個最重要任務在於模型評估和矩陣解法。擁有更多串流多處理器,對於具有龐大電晶體數量的大型電路網表將可以帶來直接助益。每個串流多處理器都是一個雙精度計算單元,能夠並行運行數千個線程,如此將能並行進行大量的設備評估。更大的L1和L2快取记忆体意味著更少的資料交換次數,亦有助於縮短模拟時間。

一般而言,電路網表中存在越多寄生元件,將會產生更密集的矩陣,由於處理這些矩陣需要運用大量的雙精度浮點運算,因此計算成本十分高昂。在此情況下,串流多處理器中的Tensor核心將可帶來強化效能,A100擁有高達19.5 TFLOPs的運算能力,可以絕佳高效能處理密集矩陣。由於A100 GPU具備前述增強功能,在相同案例中選用CPU及GPU最佳組合,A100-40GB GPU與V100 GPU相比,前者平均效能可提升50%,如圖2所示。

圖 2:A100 GPU 與 V100 GPU 相比之下的效能提升

利用 GPU 來實現SPICE 準確度

以SPICE級別準確度來模拟大型電路的需求日益增加。這些類比和混合訊號模拟通常過於耗時,而且在許多情況下,這些模拟無法以使用者需要的準確度水準運作。PrimeSim Continuum將會是另一種選擇-借助GPU異質加速計算架構的力量,將有助於解決極具挑戰性的電路模拟,以實現SPICE級別的準確度签核,進而將執行時間從幾天或幾周縮短到幾小時之內。這也是讓使用者在不影響準確度的情況下,有效鑑別设计效能的實用方法。