草榴社区

介绍

计算应用对特定应用片上系统 (SoC) 的需求与日俱增。如今,需求的多样性意味需要一系列采用各种工艺技术的计算解决方案。最终的产物可能有截然不同但仍旧严苛的功耗、性能和面积 (PPA) 要求。这些计算需求从 IoT 可穿戴设备延伸到移动应用处理器;从 AI 推理引擎延伸到机器学习 GPU 和 NPU;在最高性能端,从超级计算机中的超大规模服务器和高性能计算引擎延伸到网络和 5G/6G 基站,从加密引擎延伸到汽车 MCU 和高级驾驶辅助引擎。这种多样性催生了广泛的处理要求,但几乎所有要求都有一个共同的目标:在最佳能量分布下提取最大的计算性能。而支持如此多规范所需的精确工程权衡将不可避免地与设计密切相关。

本文将讨论如何通过一种丰富的工具感知基础 IP 解决方案(包括优化电路、广泛的工作电压范围支持以及灵活添加客户特定优化)满足这些不同计算应用(包括高性能计算 (HPC) 和 AI)在各种工艺上的特定 SoC 设计需求。本文将说明设计人员如何为其计算应用实现最佳 PPA,无论该目标是实现最佳性能还是为其设计进行最佳功耗性能权衡。

广泛支持各种处理器要求

草榴社区 开发了一款多功能、高度优化的高性能内核 (HPC) 设计套件,其中包括一系列专门优化的特殊架构逻辑单元和存储器缓存实例,以实现扩展 SoC 的性能和功耗目标。

虽然各种计算应用可能都有同一个目标,即实现最佳 PPA,但其环境条件和设计约束将有很大差异。为了满足最新的密度和功耗要求,高性能计算和移动应用处理器将使用动态电压缩放 (DVS) 等复杂实现技术,利用最新的工艺节点,例如 3nm 甚至 2nm。这需要宽范围的工艺电压温度 (PVT) 支持,并且可能需要针对目标操作点的自定义表征角。汽车和网络计算应用可能会针对尺寸稍大的 Fin-FET 节点,如 16nm、12nm、7nm 和 5nm,它们还可以利用 草榴社区 HPC 设计套件来增强 PPA。采用 4nm 和 6nm 收缩工艺的加密引擎、图形处理器和消费类计算引擎也可以从 草榴社区 HPC 设计套件中受益。

图 1 展示了 草榴社区 HPC 设计套件优化的逻辑库电路,这些电路可以显著提高性能和功率范围。

图 1:用于处理器 PPA 优化的 草榴社区 HPC 设计套件组件

在构建 HPC 设计套件时,草榴社区 基础 IP 团队精心挑选并调整了电路架构,以优化 SoC,从而实现最佳 PPA。此优化后的逻辑和内存的一些 HPC 设计套件特性如下:

  • 高级逻辑库单元架构具有足够的余量来覆盖所有操作范围。
  • 逻辑单元高度的定义与鳍片选项、单元宽度以及电源和接地电源轨完美契合,并且在模块和芯片层面设计为坚固且易于集成。
  • 内存缓存模块利用对现有高级辅助技术的进一步改进。
  • 草榴社区 支持所有可能的器件选项、非常丰富的驱动强度以及增加的复杂电路,从而增强了逻辑的多功能性。

这些功能最终形成了丰富的 HPC 设计套件,可满足高性能、中等性能和高功耗受限计算应用的 SoC 优化需求。除了高度重视架构功能外,HPC 设计套件还包括专用的单元集,以提高性能和降低动态功耗。这些单元可以分为多个组,旨在最大限度地减少开关电容和走线限制,并具有复杂的组合、顺序和多位单元以及具有优化时序弧和延迟的单元。

图 2 显示了 草榴社区 HPC 设计套件中的优化逻辑电路在 CPU、GPU、DSP 和 CNN 应用处理器的计算类中可以得到最佳利用。

图 2:草榴社区 HPC 设计套件中的关键逻辑组件

提供 PPA 优势的 草榴社区 HPC 设计套件单元的两个示例如下:

 

  • 示例 1:复杂的组合单元经过优化,可在更小的空间内实现更多功能,从而实现更高的性能、缩小面积并最大限度地降低功耗(图 3)。

图 3:复杂的组合单元可减少面积、走线拥塞和功耗

  • 示例 2:专用触发器是调谐触发器,对于在 2GHz + SoC 中实现最佳 PPA、拉伸性能和最小化功耗至关重要(图 4)

图 4:专用触发器可拉伸性能并最大限度降低功耗

草榴社区 HPC 设计套件还支持多种标准单元架构,具有广泛的 VT 和信道长度,为性能和功率调节提供更精细的粒度。一些用于高性能计算的最快应用处理器的运行速度超过 4GHz。可以针对高性能和超高性能库和内存选项,以实现高速 CPU。性能较低的模块和性能功耗平衡处理器可以利用高密度和超高密度库以及内存架构的节能优势,从而实现更低的功耗范围。利用如此广泛而灵活的选择范围,可以实现最佳的整体性能-功耗权衡。结合广泛的 PVT 支持,草榴社区 HPC 设计套件适用于非常广泛的解决方案领域。

草榴社区 HPC 设计套件支持在广泛的工作电压范围内实现动态电压缩放

将调频与使用动态电压和频率缩放 (DVFS) 的电压缩放相结合是优化高级应用处理器性能和功耗的常用方法。若要支持 DVFS,内存实例和逻辑库必须支持宽电压范围。DVFS 和电压缩放可以通过利用超级过驱和过驱 PVT 实现性能提升模式,从而最大限度地提高频率,实现短时间的性能突发,同时支持较低的 PVT 集群,以最大限度地降低非提升模式下的整体功耗。

超低电压 PVT 适用于功耗至关重要且整体性能要求受到限制但更具挑战性的应用。能够有效扩展此宽范围的基础 IP 至关重要,并且可在核心通常以较低负载运行时提供降低功耗的优势,但在需要时仍能提供高性能。草榴社区 基础 IP 支持从接近阈值 (0.375V) 到高压 (1.15V) 的广泛工作电压范围,为设计人员提供了在广泛电压范围内扩展其设计的灵活性,并充分利用电压缩放优势来降低动态和漏电功耗。

对于在非常高的频率下运行的 HPC 处理器,缓存存储器具有严格的访问时间、设置和保持时间要求。存储器的面积和纵横比在定义块的平面规划中也起着重要作用。这些缓存通常需要手工制作,以提供最佳的 PPA 概况。草榴社区 HPC 设计套件专门为 SoC 设计人员消除这一瓶颈而设计,它提供了经过专业调优的缓存实例,其优化程度超出了编译器所能达到的范围。

草榴社区 基础 IP 优化 AI 和特定于应用的加速器模块 PPA

随着一般计算需求的增加,对旨在执行特定处理任务的加速器模块的需求也在增加。这些加速器模块的架构是高度结构化的,并经过优化,以获得最佳速度、功耗和性能概况,以便处理一组较窄的特定操作。这些架构通常高度并行化。AI 加速器模块在行业内的应用极其广泛。它们经过设计和优化,可高效执行 AI 算法。这些 AI 算法需要重复的 MAC 操作;因此,此类架构旨在优化上述 MAC 操作。图 5 显示了典型的 AI 模块。与 GPU 一样,AI 加速器模块也高度并行化,以最大限度地提高数据吞吐量,从而使这些模块能够以较低的频率运行。而整体吞吐量的提升则通过同时运行数千个重复内核来实现。这些加速器模块占用大量内存且高度复制,需要高度专门化的内存实例才能获得最佳的整体性能。草榴社区 设计了这些专用存储器,以满足这些应用不断增长的存储器容量和性能需求。

图 5:面相 AI SoC 的存储器 IP 解决方案:较低的功耗和延迟

面向片上网络的 草榴社区 基础 IP 解决方案

片上网络 (NoC) 执行在 SoC 层面承载高强度通信工作负载的任务。因此,NoC 是具有高活动率的高性能电路,并且非常耗能。它们需要高性能的 1P、2P、多端口和 TCAM 存储器,如下表 1 所示。

表 1:面向片上网络应用的 草榴社区 基础 IP 解决方案

草榴社区 HPC 设计套件与 草榴社区 EDA 共同优化,确保高效的 SoC 实现

草榴社区 逻辑库和嵌入式存储器是一组丰富的 IP,已与 EDA 工具共同优化,可实现细粒度 SoC 优化和实现。这使设计人员能够实现精确的 PPA 调谐,以避免过度驱动和不必要的电容/路由开销。高驱动单元以及组合和顺序单元已经过优化,可最大限度地减少内部时序弧,并可与多位单元相结合,从而最大限度地减少开关电容,实现卓越的 PPA 权衡。与 EDA 工具的协同优化确保 SoC 实施者可以无缝访问任何创新功能,以构建高性能计算、AI 和其他处理应用。

EDA 视图支持和 PVT 针对每个节点在 草榴社区 逻辑库和内存编译器之间保持一致,以确保无故障集成体验。草榴社区 基础 IP 适用于各种代工厂和工艺节点,无论客户对目标应用的技术选择如何,都能实现优化的 PPA。它可以支持目标定制,以满足任何特定的客户需求。

总结

当今的 SoC 对实施团队提出了很高的要求。它们需要能满足各种要求并在不同的约束条件下运行的计算解决方案。无论是在云基础设施的高性能计算端,还是高端移动、低功耗 AI 或极低电压加密引擎,在低电压下或规定的功耗预算内获得最大性能的需求都极具挑战性。作为 草榴社区 基础 IP 产物组合的一部分,草榴社区 HPC 设计套件提供多功能解决方案,以应对各种挑战,使 SoC 设计人员能够在广泛的解决方案领域提供全面的产物,以优化性能和功耗。它满足了对最高 CPU 时钟频率的需求,并为中低性能处理器应用提供了优化的功耗权衡。

这些挑战并没有消失,但 草榴社区 HPC 设计套件中高度优化的逻辑库单元和嵌入式缓存实例能够提供帮助。

如需了解更多信息,请访问 草榴社区 基础 IP

草榴社区 IP 技术公告

深度技术文章、白皮书、视频、网络研讨会、产物公告等等。

继续阅读