下载中心>资源分类>应用技术>人工智能>AIML 处理器和应用程序的架构探索

pdf

AIML 处理器和应用程序的架构探索

1星
2022-05-31
1.83MB
需要1积分
0次下载

下载资源

文档简介
猜您喜欢
用户评论0

标签： AI 深度学习

AI、ML 处理器和应用程序的架构探索

½皮书

AI/ML 处理器和应用程序

的架构探索

发布日期

2021 年 5 月

目½

一、人工智½处理器架构探索简介

二、Google Tensor Processor 的架构探索示例

三、AI 处理器的探索重点

四、人工智½系统示例–自动驾驶

五、结论

www.s2ceda.com

AI / M L 处理器和应用程序的架构探索

人工智½处理器架构探索简介

人工智½（AI）应用程序处理可以分布在处理器内的多核，PCIe 骨干½上的多个处理器板，分布在以太½½络

中的计算机，高性½计算机或跨数据中心的系统中。AI 处理器具有巨大的内存大小要求，访问时间限制，在模

拟和数字之间的分布以及硬件-½件分区。AI 处理器和系统的架构探索具有挑战性，因为它在硬件的功½上应用

了数据密集型任务图，必须同时优化计算，存储，内存，管道，通信接口，½件和控制。

Genesis Architect 是可用于复杂计算系统（如 AI 处理器和系统）的架构设计½件。Genesis Architect 提供了

一个平台，可以探索和权衡硬件和½件的½系结构，以创建一个经过全面验证的系统，满足项目截止日期和成本

的考虑。

Google Tensor Processor 的架构探索示例

图一显示了 Google Tensor Processor 的内部视图。处理器通过 PCIe 接口接收来自主机的请求。运算所需的权

重存储在片外 DDR3 中，并调入权重 FIFO。到达的请求在统一本地缓冲区中存储和更新，并发送给矩阵乘法单

元进行处理。通过 AI 管道处理了请求后，请求将返回到统一缓冲区以响应主机。

图一：来自 Google 的 TPU-1

该框图已½换为图二中的架构模型。

图二：½用 Genesis Architect 设计的 AI 硬件架构模型

www.s2ceda.com

AI / M L 处理器和应用程序的架构探索

在图三中，您可以查看片外 DDR3 中的延迟和反向传播权重管理。延迟是从主机发送请求到接收响应的时间。

您将看到 TG3 和 TG4 ½够保持½延迟，直到分别达到 200 us和 350 us。MM 和 TG2在仿真初期开始缓冲。这

表明 TPU 配½不足以处理到达的负½½和所需的处理。TG3 和 TG4 的更高优先级已帮助其将运营维持了更长的时

间。MM，TG2，TG3 和 TG4 是来自独立主机的不同请求流。

图三：用于架构探索的统计数据

AI 处理器的探索重点

AI 处理器和系统设计师½用应用程序类型，训练与推论，成本点，功耗和尺寸限制进行实验。例如，设计人员可

以：

将子½络分配给流水线阶段

权衡深度神经½络（DNN）与常规机器学习算法之间的关系

在 GPU，TPU，AI 处理器，FPGA 和常规处理器上测量算法性½

评估融合计算和内存的½处

计算类似于人脑功½的模拟技术对电源的½响

½用针对单个应用程序的部分功½构建 SoC

在该示例中，架构探索的重点是内存访问。有许多选择：SRAM 与 DRAM，本地与分布式存储，内存中计算以及

缓存反向传播系数与丢弃。

接着透过虚拟原型来探索总线或½络拓扑。虚拟原型可以具有用于处理器内部的片上½络，Tilelink 或 AMBA

AXI 总线，用于连接多处理器板和机箱的 PCIe 或以太½，以及用于访问数据中心的 Wiﬁ/5G/Internet 路由器。

最后分析是传感器，½络，数学运算，DMA，自定义逻辑，仲裁器，调度程序和控制功½的接口。

用例和流量模式适用于组装成硬件，RTOS 和½络的组合的架构模型。输入资讯流可以是周期性的，例如雷达，

激光雷达和照相机，而用例可以是自动驾驶，聊天机器人，搜索，学习，推理，大数据操纵，图像识别和疾病检

测。对于输入速率，数据大小，处理时间，优先级，相关性，先决条件，反向传播循环，系数，任务图和内存访

问，用例和流量会有所不同。通过改变属性在系统模型上模拟用例，并生成各种统计信息和图表，包括高速缓存

½中率，管线利用率，拒绝的请求数，每条指令或任务的瓦特数，吞吐量，缓冲区占用率和状态图。

图四显示了系统或芯片的功耗。除了散热，电池电量消耗率和电池寿½周期变化外，该模型还可以捕获动态功率

www.s2ceda.com

AI / M L 处理器和应用程序的架构探索

变化。

图四：实时测量 AI 处理器功耗

该模型绘制了每个设备的状态活动，相关的瞬时尖峰和系统的平均功率。½早获得有关功耗的反馈，有助于热力

和机械团队设计外壳和冷却方法。大多数机箱对每个板½有最大的功率限制。此早期功耗信息可用于在性½与性

½之间进行权衡，从而寻找降½功耗的方法。

以下是一些其他 SoC 示例，重点介绍了 AI 架构模型和分析的½用：

1) 自动驾驶系统

将 360 度激光扫描仪，立½摄像机，鱼眼镜头，毫米波雷达，声纳和激光雷达连接到通过½关连接的多

个 IEEE802.1Q ½络上的 20 个 ECU

该模型用于测试功½包的 OEM 硬件配½，以确定硬件和½络要求。主动安全措½的响应时间是主要标准

2) 用于学习和推理任务的 AI 处理器

透过片上½路主干来设计，该主干构建有 32 个内核，32 个加速器，4 个 HBM2.0、8 个 DDR5，多个

DMA 和完整的缓存一致性

该模型在 RISC-V，ARM Z1 和专有内核上进行了试验。实现的目标是在链路上达到 40Gbps，同时保持

较½的路由器频率并重新训练½络路由

3) 32 层深度神经½络

需要将内存从 40GB 减少到 7GB 以下，数据吞吐量和响应时间未更改

通过行为的功½流程图以及处理和反向传播的内存访问来设½模型

对于不同的数据大小和任务图，该模型确定了数据的丢弃量以及各种片外 DRAM 大小和 SSD 存储选项，

任务图随任意数量的图以及几个输入和输出而变化

4) ½用 ARM 处理器和 AXI 总线进行½成本 AI 处理的通用 SoC

目标是获得最½的每瓦功率，从而最大化内存带½。乘法累加功½被卸½½到矢量指令，加密到 IP 内核，

定制算法到加速器

构建模型的明确目的是评估不同的缓存内存层次结构，以增加½中率和总线拓扑结构，以减少延迟

www.s2ceda.com

AI / M L 处理器和应用程序的架构探索

5) 模数 AI 处理器

需要对功耗进行½底分析，并对获得的吞吐量进行准确分析

在此模型中，非线性控制在离散事件模拟器中建模为一系列线性½数，以加快仿真速度

在这种情况下，对功½进行了测试，以检查行为并测量真正的节½效果

人工智½系统示例–自动驾驶

考虑自动驾驶应用程序，它是图五中 AI 部½的一种½式。ADAS 应用程序与计算机或电子控制单元（ECU）以

及½络上的许多应用程序共存。为了½ ADAS 任务正确运行，还需要依赖这些现有系统的传感器和执行器。

图五：½½设计中 AI 应用程序的逻辑到物理架构

早期的架构权衡可以测试和评估假设，以快速识别瓶颈，并优化规格以满足时序，吞吐量，功率和功½要求。

在图五中，您将看到该架构模型需要硬件，½络，应用程序任务，传感器，衰减器和流量激励来获得整个系统运

行的可见性。

图六显示了此 ADAS 逻辑架构映射到物理架构的实现。½用架构模型的优点是½够分离设计的所有部分，从而可

以研究单个操½的性½。您会注意到现有任务是单独列出的，具有 ECU，传感器生成和 ADAS 逻辑任务组织的

½络。ADAS 任务图中的每个功½½映射到 ECU。

Advanced Driver Assistance System

图六：将 ADAS 映射到 ECU ½络的½½系统模型

仿真 ADAS 模型后，您可以获得各种报告。在图七中，显示了完成 ADAS 任务的等待时间以及与此任务相关的

www.s2ceda.com

展开预览

猜您喜欢

上传者

: sigma; 查看他的其他资源

TI 文字链专区

举报人：
被举报人：	sigma
举报的资源分：	1
* 类型：
	请您提供公司营业执照和软件相关版权到service@eeworld.com.cn
* 详细原因：

AIML 处理器和应用程序的架构探索

文档简介

评论

汽车 模拟

汽车模拟