草榴社区

eMRAM 用于先进工艺节点中的低功耗 SoC

草榴社区 高级技术营销经理 Mingchi Liu

介绍

在提高性能的同时降低功耗是先进工艺节点面临的一大挑战。随着工艺尺寸缩小,动态和漏电功耗标度也不同。然而,工艺、IP 和系统级实现中的创新正在解决这一挑战。例如,IP 设计人员正在开发具有长沟道、低 VDDmin 和读/写辅助的新型基础 IP,用于 SRAM、反向偏压和不同的低功耗模式,以降低功耗。最新的创新举措是采用嵌入式 MRAM (eMRAM) 来降低片上系统 (SoC) 和系统的功耗。本文介绍了如何利用 eMRAM 大幅降低针对 22nm 和更小工艺尺寸的 SoC 设计的功耗。

什么是 eMRAM?

嵌入式磁阻式随机存取存储器 (eMRAM) 不同于传统的嵌入式存储器(如 SRAM 和 Flash),后者使用电荷来存储信息。eMRAM 使用其旋转来存储数据(即“自旋电子”)。eMRAM 的自旋性核心由许多称为“磁隧道连接 (MTJ)”的铁磁和非磁材料制成。MTJ 在未通电时可以几乎永久保持其极化,使 eMRAM 成为一种非易失性存储器 (NVM),就如闪存、FeRAM 和 EEPROM。

对于 20 世纪 60 年代和 20 世纪 70 年代的系统设计师来说,标准思维方式是“在寻求易失性存储器去满足性能和密度的要求,而放弃功耗”,以及“在寻求非易失性存储器来实现低功耗的要求,但把密度和性能置之一边”。然而,在当今具有如此多样性的存储器格局,让如此严格的区分不再可能。任何给定设计的“理想存储器”都可以结合多种技术的优势。下一代 eMRAM 便是这样一个候选方案,其基于自旋扭矩技术(称为 STT-MRAM)。eMRAM 具有结合闪存的非易失性、DRAM 的密度、SRAM 的速度以及任何其他现有存储器技术中都不具有的写入耐久性。

为何为 SoC 选择嵌入式 MRAM?

先进节点 SoC 设计中使用了一些存储器技术,包括 SRAM、eFlash、eMRAM、PCRAM 和 ReRAM(表 1)。随着摩尔定律的继续推进,eFlash 在先进节点上的开发正在放缓,目前停留在 28nm。利用闪存的唯一方式是在 22nm 及以下进行晶粒堆叠,或系统级封装 (SiP)。相较于 PCRAM 和 ReRAM,就替代 SRAM 和闪存而言,eMRAM 是更有前景的候选方案。相较于 SRAM,eMRAM 具有更小的面积、更低的动态功耗、更低的泄漏、更高的容量、更好的辐射抗扰性、更低的成本,并且具有非易失性。相较于 PCRAM 和 ReRAM 相比,eMRAM 具有更简单的制造工艺、更长的耐久性和生产良率。与外部闪存相比,eMRAM 在系统级别上外形小巧、性能更高、电池寿命更长、具有与 SRAM 类似的界面、用户体验更好、系统设计周转时间 (TAT) 更短、良率更高、产物成本可预测、供应稳定,从而可避免因闪存市场的特性而带来的闪存短缺。与嵌入式闪存相比,eMRAM 可使设计与从 22nm 到 FinFET 流程的先进节点中的摩尔定律保持一致。

 

SRAM

DRAM

闪存

(NAND)

PCRAM

RRAM

MRAM

(STT-MRAM)

架构

平面

离散 3D

单片 3D

平面

平面

平面

设备

6T

1T/1C

1T

1T ? 1BJT/1R

1T ? 1BJT/1R

1T/1MTJ

形体尺寸

7 纳米

18 纳米

19 纳米

20 纳米

27 纳米

40 纳米

单元尺寸

40-60 平方英尺

6-8 平方英尺

4 平方英尺

4 平方英尺

4-6 平方英尺

8-14 平方英尺

容量

16Mb

16Gb/Die

1Tb/Die

16Gb

16Gb

1Gb

耐久性

1016

105

109

109

1016

写入能量

8pW/bit/Mhz

100fJ/bit

10fJ/bit

5pJ/bit

5pJ/bit

5pJ/bit

漏电功耗

 

 

~0.8 倍

0.01 倍

 

0.01 倍

成本

1 倍

0.1-1 倍

0.01 倍

0.1 倍

0.1 倍

1 倍

来源:厂测苍辞辫蝉测蝉

表 1:标准存储器类型的比较。

eMRAM 优势

面积较小,功耗较低

SRAM 的位单元由 6 个晶体管组成,而 eMRAM 的位单元只需要 1 个晶体管,因而面积大幅缩小。由于现代 SoC 设计需要更多内存,因此更小的面积更为重要。SRAM 面积的百分比可占到 SoC 的 30% 至 45%。在边框缓冲应用的情况下,该面积可增长高达 50%。对于 AI(人工智能)的应用,它可高达晶粒的 70%。AI 应用在使用 eMRAM 替代 SRAM 时,可以将内存所需面积减少25%。eMRAM 非常适合有大内存需求的应用。

图 1:比较 SRAM 和 eMRAM 位单元架构

当 SRAM 中有写入操作时,共有 6 个激活的晶体管(图 1)。如果现有的位单元值与写入内容相反,则最多翻转四个晶体管。必须打开两个传送门,以允许数据从位线内容传入锁存器。另一方面,eMRAM 只需要一个晶体管即可进行读写操作,从而降低动态功耗。另外,SRAM 中的漏电功率在阵列和外围逻辑中均可发生,例如行/列解码器、字线驱动器、灵敏放大器、读/写辅助电路、电平变换器、功耗门控单元、自我时序路径等。对于 eMRAM,阵列处于关断状态,因此任何漏电只会发生在外围逻辑中。无需供电即可维持 MRAM 中的内容。

这对数字设计师来说是一个好消息。他们不再需要采取传统方法来降低待机功耗,例如使用深睡眠和阵列后偏置。SRAM 需要几个步骤进入和退出其保持(深度睡眠)模式,如果睡眠时间不够长,会导致响应时间更长,功耗更高。SRAM 阵列偏置还需要额外的电源,这还会增加 SoC 设计的成本和复杂性。利用 eMRAM 阵列,设计人员有望实现更低的漏电。

工艺成熟度和市场接受度

eMRAM 可从许多代工厂获得,因为在给定的工艺技术中,它的开发比 RRAM 或 PCRAM 要简单得多。例如,如图 2 所示,在线路后端 (BEOL) 工艺中,对于 eMRAM,只需要三个额外的掩膜。线路前端 (FEOL) 工艺与我们目前的流程相同,这使得 IP 开发更加容易。另外,目前还可提供独立的非嵌入式 MRAM 芯片。eMRAM 的市场接受度远远领先于 RRAM。

图 2:STT-MRAM 的 MTJ 单元。 来源:Lam Research

降低系统功耗

eMRAM 的非易失性特性对于低功耗设计或电池供电物联网应用是理想之选。如果休眠或断电后需要重新使用数据,CPU 首先需要将 SRAM 数据写入到闪存中。恢复通电时,CPU 再次读取数据。使用闪存需要两倍的操作时间,来沿着路径以及 IO 的访问,对经过的电阻和电容进行充电和放电。例如,当从 0 到 1 的 RC 充电时,大约 50% 的能量被转换,其余通过热消散。但是,当从 1 到 0 的 RC 放电时,100% 的能量被完全浪费。通过利用 eMRAM,存储器不需要经历充电/放电过程,从而降低系统级功耗(图 3)。

图 3:不同组合的系统功耗比较。来源:Qualcomm & TDK,IEDM,2015 年

更大容量

eMRAM 的最大容量可达 1Gb,而 SRAM 的最大容量通常约为单个模块 2Mb。使用 eMRAM 时,单芯片可以使用更多存储容量,或者也可以使用跟 SRAM 容量一样的 eMRAM,来实现更小的芯片面积。

辐射抗扰性

SRAM 位单元易受 α 粒子攻击。与其逻辑相比,SRAM 位单元内部的电容非常小。因此,由辐射引起的电荷沉积更低,可能会改变存储在位单元中的值,从而导致软错误。eMRAM 使用 MTJ(图 2)来存储数据,并且具有天然抗辐射能力。考虑到围绕 MRAM 位单元的外设电路,MRAM 的总体抗辐射性要高得多。

外形尺寸更小,消费者体验更好

智能手机、无线音频耳塞和可穿戴设备等应用需要更小的外形尺寸,以便为更时尚的设计提供灵活性或为更大的电池节省空间。使用闪存 SiP 时,芯片高度不能降低。或者,不使用 SiP,PCB 尺寸会更大。使用 eMRAM,设计师可以使用 flip chip 封装。Flip chip 封装在所有封装选择中高度最小,所以具有低 IR 的特性,从而提高了性能,这对于 SoC 设计极为重要。对于需要频繁固件更新的应用,eMRAM 可以存储操作过程中生成的引导代码和中间数据,如 GPS 卫星地图、来自发动机的传感器数据等。存储此数据可提供更流畅的消费体验。eMRAM 性能远高于闪存,可以实现更高的芯片性能或更快的远程固件更新。

易于集成

eMRAM 利用 SRAM 接口,无需 SPI 接口。使用 eMRAM 不需要新的总线协议。数字设计师可以轻松地集成 eMRAM 模块,就像图 4 所示的常规 SRAM。

图 4:将带有片上 SRAM 的 SoC 和外部闪存转换为带有 eMRAM 的非易失性 SoC

汽车微控制器单元 (MCU) 需要嵌入式存储器,而典型的 MCU 已经使用嵌入式闪存。但是,嵌入式存储器目前在 22nm 及以下的应用中尚未推出,这使 MCU 设计师无法充分利用较小尺寸工艺的优势。eMRAM 是 MCU 设计师寻求迁移到先进节点的完美解决方案。它很稳定,可满足汽车温度等级要求。

DesignWare 嵌入式 MRAM 编译器 IP

MRAM 已经进入嵌入式领域,正在取代 SRAM 的多样化配置。草榴社区 提供 eMRAM 编译器 IP,而不是单纯硬核。使用 eMRAM 编译器,可在几分钟内为设计师提供 eMRAM 硬核的即时编译。通过从编译器提供 eMRAM 实例的完整前端 view,设计师可以立即评估和启动设计。这大大缩短了周转时间,并加快了上市时间。

eMRAM 的 STAR Memory System 测试、修复和诊断

草榴社区 TestMAX STAR Memory System? (SMS) 解决方案测试、修复和诊断片上存储器(单/双/两/多端口 RAM/寄存器/ROM,包括 CPU 和 GPU 缓存、CAM、eflash)和片外存储器(DDR/LPDDR/HBM)。通过与领先的代工厂合作,草榴社区 增强了 SMS,来支持 eMRAM 算法,并具有调整/校准功能。草榴社区 还提供经过 ISO 26262 认证的 STAR ECC 解决方案,可用于提高 eMRAM 的生产良率,以及提高应用领域(如汽车、军事和航空航天)存储器的现场可靠性。eMRAM 的 SMS 解决方案已经过硅验证,具有高速测试、使用 march 算法的高测试覆盖率以及通过 JTAG 的可编程性等功能。STAR Memory System 的 eMRAM 算法,针对的是嵌入式 MRAM 和其他类型的非易失性存储器,在生产和现场测试期间的故障机制。支持多种背景模式和复杂寻址模式,可加速自动测试设备 (ATE) 矢量生成,从而为 eMRAM 提供最高的测试覆盖率,使制造良率最大化,并提高 SoC 的可靠性。此外,STAR Memory System 中的增强设计加速功能可实现嵌入式 MRAM 的自动执行测试和修复逻辑的规划、生成、嵌入和验证步骤,从而减少整体集成工作量。

STAR Memory System ECC

虽然 eMRAM 技术具有足够的耐久性和读/写延迟,但易受工艺变化的影响可能会导致可靠性问题。MTJ 位单元的缺点之一是读取窗口小,即,高电阻状态和低电阻状态之间的差异通常就是 2-3 倍。在 MTJ 位单元的灵敏放大值上,会比 SRAM 位单元困难得多。eMRAM 切换是一个随机过程。这意味着,减少写电流可提高能效,但会增加写错误的可能性,并降低良率。

为了达到可接受的良率并保持现场可靠性,设计人员需要实施复杂的纠错码 (ECC) 解决方案。ECC 逻辑表明,要达到一定的芯片故障率 (CFR),代工厂必须达到的存储器位故障率 (BER) 在更大的阵列尺寸下变得越来越严格。假设对于 64Mb 存储器阵列大小存在随机缺陷,针对最严格的汽车 ASIL-D 级别(相当于 SoC 级别 FIT 率为 10)的应用至少需要一个 DECTED(双重错误纠正,三重错误检测)级别的 ECC,如今,MTJ 位单元的代工厂所能达到的 BER 水平。图 5 显示,64Mb eMRAM 模块如果要达到 99% 的良率,在没有 ECC 的情况下,代工厂位单元 D0 需要达到 0.1ppm 以下。在添加 1bit 或 2bit 纠错 ECC 时,位单元 D0 可分别放宽到1ppm 或 10ppm。STAR Memory System ECC 为单端口和多端口 eMRAM 存储器自动生成 ECC Verilog 代码、测试平台和脚本。这样可以大大提高 eMRAM 的良率。

图 5:为了在无 ECC 时使 64Mb eMRAM 良率达到 99%(蓝线),代工厂位单元 D0 需要达到 0.1ppm 以下。但是,通过添加 1bit 或 2bit ECC,位单元 D0 能够分别放宽到 1ppm 或 10ppm。

DesignWare eMRAM 编译器 IP 可用性

草榴社区 与领先的代工厂合作,提供 DesignWare? eMRAM IP,在批量生产中采用经硅验证的 28nm。22nm 中的 DesignWare eMRAM IP 也经过硅验证,FinFET 节点的eMRAM IP 正在开发中。

总结

对于那些需要耐久性和小面积,低功耗 SoC,eMRAM 是具有前景的存储器技术。离散 MRAM 已经可用,设计师正在利用嵌入式 MRAM 提高 PPA 效率。由于任意两个 SoC 的配置要求都各有不同,因此 草榴社区 提供 eMRAM 编译器 IP,可用于生成各种配置,以满足您的特定设计要求。

如需更多信息,请访问:DesignWare 基础 IP