草榴社区

利用人工智能掌控即将出现的数据爆炸

草榴社区 高级产物营销经理 Michael Thompson

介绍

我们正在经历数据爆炸。自动驾驶汽车、增强现实、机器视觉、互联网和个人助理的功能都在迅速增强。这些功能的共同之处在于它们都生成大量数据。十年前,全世界生成了 2 ZB(泽字节)或 2x 1021 字节的数据。今年(2020 年),我们的世界将生成 32 ZB 的数据,而到了 2025 年,数据量将超过 160 ZB。大部分数据是在数据中心之外生成,这让我们难以确定处理和存储这些数据的方式和位置。移动数据需要能源、资金并占用带宽,同时许多应用都有延迟限制,无法远距离传输数据。面对庞大的数据量,我们无法移动大部分数据进行处理或存储,所以必须在数据生成的地方进行处理。

即将出现的数据爆炸

当代的技术发展始于 1983 年的个人计算机,并于 1995 年过渡到互联网时代,逐步发展至今。2007 年,移动时代兴起并引领进入 2011 年的云时代。每一个新兴的技术时代均是由前代推动而来。我们即将进入的第五个时代-数据时代。互联网、移动设备和云促进了数据的快速增长。在移动时代开始的 2007 年,全世界生成了 0.5 ZB 的数据。到 2011 年云时代开始时,数据量增长了 4 倍,达到 2 ZB。9 年来,全世界的数据增长了 15 倍以上。

我们生成数据的速度呈指数级增长,现有数据中有 90% 是在过去两年间生成的。 目前,有 70 亿个人和公司以及 300 亿台设备连接到互联网。每 60 秒就有 100 万人登录 Facebook,发送 1800 万条短信,在 YouTube 上观看 430 万个视频,发送近 2 亿封电子邮件。 每一天的每一分钟都是如此,而这只占我们所生成数据的一小部分。 

多种趋势都在推动数据增长。在公司方面,有大数据和实时分析、云计算、电子商务、实时盘库和劳动力自动化。在家庭中,监控系统、家居自动化、可穿戴设备、流媒体、社交媒体、个人助理和游戏都在推动数据增长。当然,我们在家庭之外也使用了许多这样的功能,而且生成了更多数据。联网后,在生产率、安全性、便利性和通信方面有很多好处,而我们的连接数量也在不断增加,从而推动了数据的增长。

数据挑战

所有这些数据都会带来好处,但同时也给我们带来了一些挑战。首先,数据激增。这意味着增长速度在不断攀升。这是一个挑战,因为我们今天所拥有的基础架构还远远不够,而且要花很多年才能开发出更高带宽的解决方案。2019 至 2025 年间,数据使用量会增加 5 倍,也就是 2025 年的数据使用量将比 2019 年多 130 ZB。直观来看,130 ZB 的数据量要超过从半导体发明到 2019 年生成的所有数据总量。

图 1. 联网设备、边缘计算和物联网

第二个挑战是,大多数数据增长都是由物联网 (IoT) 在距云最远的互联网端点生成的。这并不奇怪,因为互联网伴随着我们的生活,也是让我们与外界的联系一种媒介,但是它给处理数据和基于数据制定决策方面带来了难题。将数据从生成位置移动到云需要昂贵的成本和能耗,因此很多处理和存储都必须在生成数据的位置或在网络边缘进行(图 1)。

另一个挑战是一部分数据必须进行实时处理。对于许多应用而言,将数据从 IoT 设备移动到云中进行处理时,相关的延迟过长。例如,自动驾驶汽车使用的传感器和相机都会生成大量数据。如果将数据移到云中来判定车道中是否有行人,则可能引发事故,所以必须在车辆中处理数据。

重新部署架构,迎接数据时代的到来

移动大量数据存在限制,所以需要将数据处理程序移动到边缘和连接的 IoT 设备。网络带宽、功耗和实时应用要求的限制迫使我们完成这种移动。人员和设备在边缘连接,这种现状不会改变,因此必需把分析和存储功能从云中转移出来。幸运的是,半导体技术和固件功能不断发展,并且在云外部执行高级处理的能力也在迅速提高,从而能为边缘或 IoT 设备中的许多应用执行所需的处理。

除了减少功耗和改善延迟之外,在边缘处理数据还有其他优势。边缘和 IoT 设备中的处理功能是可扩展的。如果应用需要增加处理量,则可以在设计时为其配备更多资源。在边缘进行处理也更加安全可靠,因为不必在互联网上移动数据,并且数据大多会在端点内完成处理。   

边缘处理出现的一个情况是计算存储(即在存储驱动器内部处理数据)的使用日益增多。数据位于存储器中,所以在这里进行处理很合理(图 2)。这样可以提高安全性和吞吐量,降低移动数据的成本和功耗,并支持脱机处理。计算存储也将在 IoT 设备中得到越来越多的应用。 

图 2. SSD 中计算存储的使用正在增多

计算存储的许多新功能正在通过人工智能 (AI) 实现。AI 已经问世多年,但是直到最近十年,我们才能够在嵌入式应用中使用这种功能。内存密度、处理器性能和 AI 算法的进步都有助于提高性能和降低功耗,从而使得只能在大型机使用的 AI 也能用于嵌入式应用。

AI 这种重要的解决方案使我们能够根据数据所需的存储时长和更新频率,更加合理地存储数据。AI 可用于预测冷热数据,确定存储数据的位置,管理数据的生命周期以及提出针对存储数据的见解。在存储驱动器中,AI 可用于对象检测和分类,或用于创建元数据(对于数据的数据)以启用搜索。

不需要在边缘单独设置 AI。可以使用 AI 在边缘进行第一级数据处理,然后将信息移动到云,完成必要的繁重处理。这将减少传输的数据量,改进延迟,并减轻在云中的处理负荷。

AI 正在迅速发展

微处理器功能的进步结合最新处理技术,促进了嵌入式应用的 AI 实现,从而以尺寸非常小的处理器实现几年前无法达到的性能水平。在 IoT 设备中采用了诸如 DesignWare? ARC? EM 处理器之类的小型低功耗 CPU,用于实现 AI(图 3)。专用库(例如支持 ARC EM 和 HS 处理器系列的 embARC 机器学习推断 (MLI) 库)促进了这一进程的实现。这种库极大地提高了 AI 性能,将二维卷积性能提高了 16 倍,且将各类递归神经网络 (RNN) 拓扑的性能提高了 5 倍。配备 MLI 库的 ARC EM 可用于支持广泛的 AI 应用,并且功耗极低。 

图 3. 在 IoT 应用中使用 AI 适用的 ARC EM 的处理步骤

尽管 AI 任务可以使用 ARC HS 和 EM 之类的处理器,但是特定 AI 任务都有自己的专用处理器,而且这些专用处理器能够为嵌入式 AI 应用实现最高性能。例如,GPU 已经用于机器视觉应用,但是即将被新的专用嵌入式视觉 (EV) 处理器取代,例如 草榴社区 的 DesignWare ARC EV7x 处理器。ARC EV7x 可以配备可编程神经网络引擎,以非常高的性能水平执行 AI 操作。不仅处理器的性能得以提高,而且处理器上运行的 AI 算法也得到了改进,从而提高了准确性并减少了内存需求。

总结

我们生成的数据量呈指数级增长,预计未来 5 年将增长 5 倍,达到 160 ZB。到 2025 年,生成的数据将比 2020 年多出 130 ZB,数量超过从半导体发明问世到 2019 年生成的数据总和。 仅仅说处理这种数据的增加具有挑战性,就过于轻描淡写了。

在公司方面和在家庭中,有几种趋势正在推动数据增长——例如,自动驾驶汽车、增强现实、机器视觉、互联网和个人助理都凭借自身带来的便利性得以迅速增长。

大部分数据都是在云外部生成,所以我们必须集中精力在数据生成的地方进行处理。将如此庞大的数据从互联网的边缘和端点传输到云,在现实中并不具备可行性。这会造成功耗、带宽和时间的巨大浪费。应对数据增长需要进行三种改变。数据处理将从云端迁移到边缘,甚至进入互联网的端点。增加计算存储的使用,以应对存储容量的增长以及在边缘处理数据的需求。AI 将成为解决方案不可或缺的一部分,并将在边缘、互联网端点和存储驱动器中使用,从而智能地管理数据,以及安排处理数据的方式和位置。即将出现的数据爆炸是一个挑战,但是如果我们能够智能地管理数据流以及数据的处理和存储位置,就可以顺利应对。

 

如需更多信息,请访问:DesignWare ARC 处理器 IP 解决方案