由人工智慧驱动的设计应用
本文原文由张贴
英文原文:
在過去十年裡,GPU技術的進展令人超乎想像。GPU最初常用於渲染(render)圖形和影片,無論是在平板上玩互動遊戲還是看電影,都是受益於GPU的功能;然而,現在GPU應用已進階至深度學習及人工智慧等高效能运算(贬笔颁)領域。事實上,HPC產業正朝向加速運算模型發展,而在GPU上進行密集計算,將得以實現更快的實際執行時間。
隨著半導體製程技術持續進步和不斷增加的電路複雜性,電路模拟現在正面臨著更大的挑戰,特別是在模拟成本、品質和結果時間層面。為了解決這些挑戰,並確保晶片經過完整验证,使用者需要一個具備先進GPU效能擴展的統一流程。
隨著CPU效能提升幅度趨於平穩,GPU成為了加速電路模拟和签核流程的理想選擇。在具有數千萬或數億元件的各種電路類型(PLLs、SerDes、SRAMs、PHY)中,GPU可以提升10倍的模拟運行時間,如圖1所示。
圖 1:使用V100 GPU 後的效能提升
新思科技 PrimeSim? Continuum提供獨特的下一代CPU-GPU混合架構,可顯著提高效能,同時滿足當今先進應用的签核準確度要求。
PrimeSim模拟器最初推出時採用NVIDIA V100 GPU,而目前的最新版本 (2021年9月)則已搭載架構。2020年推出的Ampere A100是NVIDIA最新款的GPU。傳統的HPC工作負載,如電路模拟,持續需要更多的雙精度運算效能和记忆体頻寬。利用通用矩陣乘法(GEMM, General Matrix-Matrix Multiplication)加速的架構概念,A100納入了Tensor 核心針對雙精度FP64資料類型的支援,將GPU峰值效能提升到19.5 TFLOPS。表1比較了Ampere A100 (2020)與其部署於資料中心的前代产物Volta V100 (2017) GPU的關鍵屬性。
|
Volta V100 |
Ampere A100 |
Increase |
FP64 |
7.8 TFLOPS |
19.5 TFLOPS |
2.5x |
DRAM Bandwidth |
900 GB/s |
2,000 GB/s |
2.2x |
NVLink Bandwidth |
300 GB/s |
600 GB/s |
2x |
L2 Capacity |
6 MB |
40 MB |
6.7x |
DRAM Capacity |
32 GB |
80 GB |
2.5x |
表 1:V100和A100 GPU的關鍵屬性比較
Ampere極大幅地提高了關鍵硬體屬性中的每一個項目,包括5倍的FP16產出量(throughput),2.2倍的DRAM頻寬,以及6.7倍的on-chip L2快取记忆体。除了大規模的平行計算產出量和记忆体頻寬,Ampere架構還包括可加速機器學習和HPC應用的硬體支援,例如,Tensor 核心所支援的結構化稀疏(sparsity)。在记忆体系統中,A100提供一系列的功能,以更好地控制資料的移動和放置。A100在傳輸資料時可直接將记忆体階層結構轉移到共用记忆体,無需透過暫存器檔案(register file)。此外,A100還提供了一套新的L2快取记忆体控制操作,允許程式设计師執行快取记忆体的替換策略,並有效地決定將哪些資料結構留在快取记忆体中。最後,L2快取记忆体具備硬體支援的資料壓縮,得以在DRAM和L2中保持壓縮狀態以節省頻寬和容量,並在傳輸到串流多處理器(Streaming Multiprocessor, SM)時進行解壓縮或壓縮。
支持 Ampere A100 架構的PrimeSim 具備以下優勢:
隨著現代製程節點產生更多裝置數量,SPICE模拟器的兩個最重要任務在於模型評估和矩陣解法。擁有更多串流多處理器,對於具有龐大電晶體數量的大型電路網表將可以帶來直接助益。每個串流多處理器都是一個雙精度計算單元,能夠並行運行數千個線程,如此將能並行進行大量的設備評估。更大的L1和L2快取记忆体意味著更少的資料交換次數,亦有助於縮短模拟時間。
一般而言,電路網表中存在越多寄生元件,將會產生更密集的矩陣,由於處理這些矩陣需要運用大量的雙精度浮點運算,因此計算成本十分高昂。在此情況下,串流多處理器中的Tensor核心將可帶來強化效能,A100擁有高達19.5 TFLOPs的運算能力,可以絕佳高效能處理密集矩陣。由於A100 GPU具備前述增強功能,在相同案例中選用CPU及GPU最佳組合,A100-40GB GPU與V100 GPU相比,前者平均效能可提升50%,如圖2所示。
圖 2:A100 GPU 與 V100 GPU 相比之下的效能提升
以SPICE級別準確度來模拟大型電路的需求日益增加。這些類比和混合訊號模拟通常過於耗時,而且在許多情況下,這些模拟無法以使用者需要的準確度水準運作。PrimeSim Continuum將會是另一種選擇-借助GPU異質加速計算架構的力量,將有助於解決極具挑戰性的電路模拟,以實現SPICE級別的準確度签核,進而將執行時間從幾天或幾周縮短到幾小時之內。這也是讓使用者在不影響準確度的情況下,有效鑑別设计效能的實用方法。