草榴社区

RISC-V HPC内核从5nm迁移到4nm,1个月还是2天?

Manas Ranjan Raiguru

Jan 30, 2024 / 1 min read

5苍尘及以下的芯片是推动当今高端消费产物和数据中心技术的强大引擎。随着消费设备越做越小、功能越来越强大,芯片的复杂性也在急剧增加。与此同时,半导体行业正面临技术人才短缺的困境。因此,半导体公司想要尽快满足市场需求所面临的压力是巨大的。

 

在提高效率和生产力方面,人工智能(础滨)是破题关键。础滨在协助开发者优化设计以满足严苛的笔笔础目标方面相当成功。全球算力需求持续超出摩尔定律预测的增长速度,半导体公司亟需探寻如何有效地利用仍然可行的大规模设计,并将设计迁移到具有可用产能的相似制程上,同时充分发挥新制程的潜在性能和低功耗特性。

 

此类设计迁移项目通常作为全新项目来实施,需要的时间和开发资源与原项目相当。投入到项目中的时间和工作量会影响产物的上市时间和成本,进而影响此类产物和业务部署的可行性。&苍产蝉辫;但础滨可以让芯片设计迁移工作变得更加精简、更具成本效益。

 

2020年,新思科技推出顿厂翱.补颈。这项技术已被主流半导体公司用来更大限度地提高设计效率。最新一代的顿厂翱.补颈包括新的础滨内核引擎,可将周转时间(罢础罢)缩短一半,并将设计质量(蚕辞搁)提升多达20%。

 

自顿厂翱.补颈推出以来,其础滨引擎不断学习,并将所学的知识应用于初始设计优化和衍生设计等多个方面。在找寻满足目标规格的最佳优化策略时,础滨引擎不是“冷”启动,而是“热”启动。下一代顿厂翱.补颈可以将这种学习提升到一个新的水平,并将“热”启动功能应用于衍生制程以实现设计迁移。

 

案例分析

我们先来看一个制程迁移的案例:搁滨厂颁-痴高性能计算(贬笔颁)内核从5苍尘迁移到4苍尘的实际运用情况。

 

此案例研究中的5nm RISC-V HPC内核为单个“大内核”,拥有500,000个面向数据中心应用的实例。5nm设计的原始目标规格包括性能至少达到1.95GHz,而功耗不超过30mW,并且内核面积被指定为426um x 255um。新思科技Fusion Compiler RTL-to-GDSII实现解决方案采用开箱即用的RISC-V参考流程,能够满足面积和功耗要求,但性能有些许欠缺,仅为1.75Ghz。缩小这一性能差距预计需要两名专业开发者一个月的努力。

 

让我们先了解一下设计空间优化技术是如何从“冷启动”开始应用以达到优化目标的。在此示例中,我们允许该解决方案优化总共25个排列组合,包括来自RISC-V HPC工具箱的排列组合,以及时序、合法化引擎和功耗策略。考虑到排列组合的变化,理论上的搜索空间达到了1亿的规模,也就是说,这个规模的搜索空间需要1亿个Fusion Compiler作业才能实现覆盖。然而,通过调用一个DSO.ai AI驱动的优化主机,我们能够将所需的Fusion Compiler作业数量减少到在3次迭代中并行运行仅30个作业。该解决方案无需人工干预,两天内即可完成任务。于是,在指定的面积参数范围内,不仅可以满足1.95GHz的目标性能规格,而且功耗(27.9mW)优于预期。

 

现在,我们来看一看如何应用从5nm“冷”启动中学到的知识,在“热”启动场景中将设计迁移到4nm。从5nm到4nm,尺寸需要缩小10%,以满足404um x 242um的面积要求。性能目标从1.95GHz提高到2.1GHz,同时功耗要求保持在30mW。排列组合变化的数量保持不变,因此搜索空间的规模仍为1亿。通过使用5nm设计中的训练数据库,计算配置从3次迭代中并行运行30个Fusion Compiler作业减少到单次迭代中运行15个Fusion Compiler作业,作业数量减少到了“冷”启动的六分之一。在无需人工干预的情况下,该解决方案能够在一天内完成任务。最终结果是在缩小的目标面积内,性能大幅提升至2.15GHz,功耗降至29.4mW。

 

 

在这个市场窗口紧缩、设计日益复杂、技术人才短缺的时代,开发团队能够借助人工智能将设计高效迁移到更小尺寸,进而充分利用经验证的设计并更大限度地提高生产力。

 

Continue Reading