础滨驱动的设计应用
作者:Graham Wilson, 草榴社区公司 ARC处理器事业部高级产物营销经理
最初,物联网 (IoT) 是一个包罗万象的术语,大多数人认为其含义几乎涵盖所有互联设备。然而,随着市场的成熟以及应用使用模型和要求变得更加明确,许多行业观察者开始将IoT应用分为两部分:关键IoT和大规模IoT。关键IoT指各种关键任务应用,如车载通信、工业机器和低延迟至关重要的医疗程序,而大规模 IoT 涵盖包括终端节点设备在内数十亿互联设备。这些终端节点设备通常具有严格的功率和成本限制。
终端节点片上系统 (SoC) 器件的作用可归纳为四种主要功能:
传感:从环境感应角度看,例如温度、湿度、化学成分,所需采样率极低,每分钟或每秒 (几分钟或几秒) 进行一次运动、音频、语音和图像采样,每秒可达100B个样本。
计算:包括系统控制、同步、机器学习/人工智能 (AI)、数字信号处理、数据加密和操作系统 (OS) 运行。
通信:包括支持各种无线通信标准,如图1所示。
图1:终端节点设备支持的无线通信标准
安全:终端节点设备数据泄露和其他安全风险日益引起关注。这些设备常见安全功能包括防篡改、防止侧信道访问、执行可信执行环境 (TEE)、加密和安全岛设计实现。
由于终端节点IoT设备成本和功耗预算紧张,尽量在设计中减少处理器数量是十分重要的。因此,能够提供所有必要功能的单核处理器解决方案是优先考虑的,这些必要的功能包括用于系统同步的控制器功能、实时操作系统 (RTOS)、PHY通信接口、安全和加密。而且,该处理器还应执行各种DSP操作,如前端信号处理、传感器数据过滤、无线通信和PHY计算。显而易见,寻找满足所有这些要求的单核处理器是一项艰巨的挑战,虽然终端节点设备可能需要其中某种功能,但单个应用一般不需要每个功能。 因此,在超低功耗和超小外形的前提下,具备例如可定制性能和计算吞吐量等这种高度配置能力的内核将是理想解决方案。
新思科技 (草榴社区) DesignWare? ARC? EM9D 处理器具有控制器和DSP功能,体积非常小。EM9D处理器基于三级流水线微架构,性能分别达到4.0 CoreMark/MHz和1.8 DMIPs/MHz。
利用ARC EM9D处理器,多个操作可融合成一条指令,在一个周期内执行。从而提高计算吞吐量,极大程度地减小指令存储,例如,融合指令可加载存储器中多个数据矢量,执行这个数据的操作 (如乘法累加),自动更新存储器指针并保存数据,全部在一条指令中完成。这样,处理器可在一个周期执行多达七个操作。ARC EM9D处理器每周期可执行两个MAC,提高矢量数据计算吞吐量。ARC MetaWare编译器全面支持融合指令,可自动将其由C代码映射为执行代码指令。
ARC EM9D处理器采用针对终端节点IoT应用优化的指令集架构 (ISA)。例如,内核数据存储器数据存取指令,在数据存储器存取过程中可直接读写数据位,不需要将数据位预先打包成字,特别适合用于连接低速率传感器接口。
这种架构、优化ISA和高性能数据吞吐量,使ARC EM9D成为具有极其强大计算能力的DSP。EM9D仅需40 k周期即可完成面部检测CNN计算算法。
在优化内核性能、尺寸和功耗时,数据存储接口是关键。数据存储接口 (加载/存储单元) 决定加载和存储的数据量以及操作频率。再考虑到其占位体积,因此优化数据存储接口将使设计师能够根据性能要求更灵活的平衡功耗和占用面积。
EM9D处理器采用完全可配置的数据存储接口,支持一至三个紧密耦合的数据存储器 (DCCM、XCCM和YCCM)。这些存储区域完全由MetaWare编译器来支持,从而消除了手动数据向量分配的需要。这些存储器访问由融合指令支持,必要时可并行访问三个存储区域,可在一个周期内完成操作计算,具有非常高的性能。其高可配置能力便于SoC开发人员调整内核存储器接口,满足计算吞吐量、面积和功耗要求。例如,配置有三个物理数据存储器的EM9D将提供三倍的计算性能,核心/存储器功耗降低至多40%。
除数据存储器尺寸和配置外,指令存储器大小也是影响系统面积和功耗的一个重要因素。与竞品相比,EM9D处理器代码大小大约可减小15%至20%。这得益于高效ARCv2DSP ISA,以及编译器高效指令映射和调度。除此之外,融合指令显著减小代码尺寸,从而进一步缩小指令存储器的大小。
除优化内核和存储器之外,DSP片上系统 (SoC) 集成对于优化性能、功耗和面积也很重要。端节点IoT SoC可以非常简单,也可以高度复杂,有时传统模块化SoC互连系统增加的门数、功耗和周期预算开销也可以进行优化。草榴社区的ARC处理器具有全面的可配置、可扩展能力,并提供了业内现有IP处理器内核非常广泛的系统和硬件连接方案。
外围硬件模块可通过专用外设接口连接处理器,实现“无总线”设计,使数据吞吐量密集模块零延迟。内核寄存器库的大小可以扩展,硬件模块可直接连接这些寄存器,通过内核软件控制/更新这些硬件模块的状态。此外,利用ARC处理器扩展 (APEX) 技术,设计师可以以RTL描述方式为ISA添加自定义寄存器和接口。这些连接方案为SoC开发人员重新调整系统架构,实现性能、功耗和面积目标提供了更进一步的灵活性。
为了进一步优化性能,可以将一个可选的?DMA控制器添加到处理器中。这种μDMA引擎直接由ARC EM9D处理器控制,且与内核并行运行,可减少大量数据移动。
图2显示这种系统架构优化如何显着改进性能、功耗和占用面积的示例。
图2: 利用ARC和APEX接口实现无总线设计提高PPA
由于所有这些特性和配置选项,ARC EM9D处理器被证明是需要控制和数字信号处理能力的IoT终端节点应用的理想选择,主要理由如下:
滨辞罢终端节点设备的作用主要分为传感、计算、通信和安全几个方面,理想情况下在单个低成本处理内核上运行
这些功能需要控制和顿厂笔处理
ARC EM9D/11D处理器将高性能控制和DSP功能理想地组合在超小型超低功耗处理器中
数据存储器接口配置便于厂辞颁开发人员在功耗和芯片尺寸限制的范围内调整性能目标
贰惭9顿高性能滨厂础和融合指令实现领先性能,尽可能地减小代码尺寸和内核面积
贰惭9顿处理器系统连接方案进一步优化性能,降低功耗和面积
ARC EM9D的所有性能均达到业界领先水平,并可紧密集成系统外设和硬件加速器模块选件。终端节点设备SoC开发人员可调整ARC EM9D配置、存储器尺寸和系统连接,满足性能、面积和功耗的要求。