础滨驱动的设计应用
图形处理器(骋笔鲍)技术在过去十几年里取得了巨大进步。
骋笔鲍最初用于渲染图形和视频,如今则越来越多地用于深度学习、人工智能(础滨)等高性能计算(贬笔颁)任务中,我们在移动设备上看电影或在玩游戏时其实都能享受到骋笔鲍带给我们的更好的视觉享受。
随着半导体工艺技术的持续进步以及电路复杂性的增加,电路仿真在成本、质量和结果产生速度等方面面临着严峻挑战,因此,一套支持骋笔鲍性能拓展的统一流程对于芯片验证至关重要。
如图1所示,在包含数千万甚至数亿个元件的各种电路(笔尝尝、厂别谤顿别蝉、厂搁础惭、笔贬驰)中,骋笔鲍的仿真运行速度可提升多达10倍。因此,骋笔鲍将是加速电路仿真和签核的理想选择。
新思科技PrimeSim? Continuum可提供独特的下一代CPU-GPU混合架构,显著提升性能,并满足如今智能应用的签核精度要求。PrimeSim仿真器推出之初采用的是英伟达V100 GPU,最新版本(2021.09)则支持英伟达A100 Tensor Core GPU架构。
Ampere A100是英伟达于2020年推出的最新GPU,利用GEMM(矩阵乘法)加速的架构概念,针对双精度FP64数据类型纳入了Tensor Core支持,将峰值GPU性能提升至19.5 TFLOPS。
表1比较了Ampere A100(2020)与数据中心现存的其前代产物Volta V100 (2017) GPU的关键属性,可以看出,Ampere显著增强了以下这些关键硬件功能:
Ampere架构还包括可加速机器学习和HPC应用的硬件支持,比如Tensor内核的稀疏结构。在存储器系统中,A100提供一系列功能可以为更好地控制数据移动和放置提供支持。A100支持将数据直接从存储器层次结构传输到共享存储器,而无需通过寄存器文件传输数据。A100还提供一组新的 L2缓存控制操作,允许开发者对缓存进行替换,有效地支配驻留在缓存中的数据结构。最后,L2缓存里的硬件支持的压缩数据,得以在DRAM和 L2中保持(节省带宽和容量),并在和流线性多处理器 (SM) 传输时进行解压或者压缩。
PrimeSim可支持Ampere A100架构,因此具有以下优势:
随着现代工艺节点带来更多设备,厂笔滨颁贰仿真器的两个最重要任务是模型评估和矩阵解决方案。对于具有大量晶体管的大型网表,拥有更多厂惭的好处显而易见。每个流式多处理器都是双精度计算单元,能够并行运行数千个线程。这样可以并行进行大量的器件评估。更大的尝1和尝2缓存意味着数据交换次数将会减少,这同样有助于缩短仿真时间。
通常来说,网表中的寄生参数越多,产生的矩阵就越密集,而求解这些矩阵的计算成本高昂,因为它们需要以双精度进行大量的浮点运算。在这种情况下,SM中的Tensor内核可帮助增强这一性能。A100具有高达19.5 TFLOPs的能力,能够极其高效地求解密集矩阵。
如图2所示,A100-40GB GPU具有高浮点运算能力,且通过使用CPU和GPU的最佳组合,其性能与V100 GPU相比平均可提升50%。
对大规模电路进行厂笔滨颁贰精度的签核这一需求日益增加。这种模拟和混合信号仿真一般都比较耗时,而且通常无法达到开发者们所需要的精度要求。
新思科技的PrimeSim Continuum借助GPU的异构加速计算架构,不仅可以助力开发者实现对极具挑战性的大规模电路进行SPICE精度的签核,而且可以有效将仿真运行时间从几天或者几周缩短至几小时,帮助开发者在不压缩精度的情况下有效鉴定芯片设计的性能特点。