½皮书
AI/ML 处理器和应用程序
的架构探索
发布日期
2021 年 5 月
目½
一、人工智½处理器架构探索简介
二、Google Tensor Processor 的架构探索示例
三、AI 处理器的探索重点
四、人工智½系统示例–自动驾驶
五、结论
www.s2ceda.com
AI / M L 处理 器和 应用 程序 的架构 探索
人工智½处理器架构探索简介
人工智½(AI)应用程序处理可以分布在处理器内的多核,PCIe 骨干½上的多个处理器板,分布在以太½½络
中的计算机,高性½计算机或跨数据中心的系统中。AI 处理器具有巨大的内存大小要求,访问时间限制,在模
拟和数字之间的分布以及硬件-½件分区。AI 处理器和系统的架构探索具有挑战性,因为它在硬件的功½上应用
了数据密集型任务图,必须同时优化计算,存储,内存,管道,通信接口,½件和控制。
Genesis Architect 是可用于复杂计算系统(如 AI 处理器和系统)的架构设计½件。Genesis Architect 提供了
一个平台,可以探索和权衡硬件和½件的½系结构,以创建一个经过全面验证的系统,满足项目截止日期和成本
的考虑。
Google Tensor Processor 的架构探索示例
图一显示了 Google Tensor Processor 的内部视图。处理器通过 PCIe 接口接收来自主机的请求。运算所需的权
重存储在片外 DDR3 中,并调入权重 FIFO。到达的请求在统一本地缓冲区中存储和更新,并发送给矩阵乘法单
元进行处理。通过 AI 管道处理了请求后,请求将返回到统一缓冲区以响应主机。
图一:来自 Google 的 TPU-1
该框图已½换为图二中的架构模型。
图二:½用 Genesis Architect 设计的 AI 硬件架构模型
www.s2ceda.com
2
AI / M L 处理 器和 应用 程序 的架构 探索
在图三中,您可以查看片外 DDR3 中的延迟和反向传播权重管理。延迟是从主机发送请求到接收响应的时间。
您将看到 TG3 和 TG4 ½够保持½延迟,直到分别达到 200 us和 350 us。MM 和 TG2在仿真初期开始缓冲。这
表明 TPU 配½不足以处理到达的负½½和所需的处理。TG3 和 TG4 的更高优先级已帮助其将运营维持了更长的时
间。MM,TG2,TG3 和 TG4 是来自独立主机的不同请求流。
图三:用于架构探索的统计数据
AI 处理器的探索重点
AI 处理器和系统设计师½用应用程序类型,训练与推论,成本点,功耗和尺寸限制进行实验。例如,设计人员可
以:
将子½络分配给流水线阶段
权衡深度神经½络(DNN)与常规机器学习算法之间的关系
在 GPU,TPU,AI 处理器,FPGA 和常规处理器上测量算法性½
评估融合计算和内存的½处
计算类似于人脑功½的模拟技术对电源的½响
½用针对单个应用程序的部分功½构建 SoC
在该示例中,架构探索的重点是内存访问。有许多选择:SRAM 与 DRAM,本地与分布式存储,内存中计算以及
缓存反向传播系数与丢弃。
接着透过虚拟原型来探索总线或½络拓扑。虚拟原型可以具有用于处理器内部的片上½络,Tilelink 或 AMBA
AXI 总线,用于连接多处理器板和机箱的 PCIe 或以太½,以及用于访问数据中心的 Wifi/5G/Internet 路由器。
最后分析是传感器,½络,数学运算,DMA,自定义逻辑,仲裁器,调度程序和控制功½的接口。
用例和流量模式适用于组装成硬件,RTOS 和½络的组合的架构模型。输入资讯流可以是周期性的,例如雷达,
激光雷达和照相机,而用例可以是自动驾驶,聊天机器人,搜索,学习,推理,大数据操纵,图像识别和疾病检
测。对于输入速率,数据大小,处理时间,优先级,相关性,先决条件,反向传播循环,系数,任务图和内存访
问,用例和流量会有所不同。通过改变属性在系统模型上模拟用例,并生成各种统计信息和图表,包括高速缓存
½中率,管线利用率,拒绝的请求数,每条指令或任务的瓦特数,吞吐量,缓冲区占用率和状态图。
图四显示了系统或芯片的功耗。除了散热,电池电量消耗率和电池寿½周期变化外,该模型还可以捕获动态功率
www.s2ceda.com
3
AI / M L 处理 器和 应用 程序 的架构 探索
变化。
图四:实时测量 AI 处理器功耗
该模型绘制了每个设备的状态活动,相关的瞬时尖峰和系统的平均功率。½早获得有关功耗的反馈,有助于热力
和机械团队设计外壳和冷却方法。大多数机箱对每个板½有最大的功率限制。此早期功耗信息可用于在性½与性
½之间进行权衡,从而寻找降½功耗的方法。
以下是一些其他 SoC 示例,重点介绍了 AI 架构模型和分析的½用:
1) 自动驾驶系统
将 360 度激光扫描仪,立½摄像机,鱼眼镜头,毫米波雷达,声纳和激光雷达连接到通过½关连接的多
个 IEEE802.1Q ½络上的 20 个 ECU
该模型用于测试功½包的 OEM 硬件配½,以确定硬件和½络要求。主动安全措½的响应时间是主要标准
2) 用于学习和推理任务的 AI 处理器
透过片上½路主干来设计,该主干构建有 32 个内核,32 个加速器,4 个 HBM2.0、8 个 DDR5,多个
DMA 和完整的缓存一致性
该模型在 RISC-V,ARM Z1 和专有内核上进行了试验。实现的目标是在链路上达到 40Gbps,同时保持
较½的路由器频率并重新训练½络路由
3) 32 层深度神经½络
需要将内存从 40GB 减少到 7GB 以下,数据吞吐量和响应时间未更改
通过行为的功½流程图以及处理和反向传播的内存访问来设½模型
对于不同的数据大小和任务图,该模型确定了数据的丢弃量以及各种片外 DRAM 大小和 SSD 存储选项,
任务图随任意数量的图以及几个输入和输出而变化
4) ½用 ARM 处理器和 AXI 总线进行½成本 AI 处理的通用 SoC
目标是获得最½的每瓦功率,从而最大化内存带½。乘法累加功½被卸½½到矢量指令,加密到 IP 内核,
定制算法到加速器
构建模型的明确目的是评估不同的缓存内存层次结构,以增加½中率和总线拓扑结构,以减少延迟
www.s2ceda.com
4
AI / M L 处理 器和 应用 程序 的架构 探索
5) 模数 AI 处理器
需要对功耗进行½底分析,并对获得的吞吐量进行准确分析
在此模型中,非线性控制在离散事件模拟器中建模为一系列线性½数,以加快仿真速度
在这种情况下,对功½进行了测试,以检查行为并测量真正的节½效果
人工智½系统示例–自动驾驶
考虑自动驾驶应用程序,它是图五中 AI 部½的一种½式。ADAS 应用程序与计算机或电子控制单元(ECU)以
及½络上的许多应用程序共存。为了½ ADAS 任务正确运行,还需要依赖这些现有系统的传感器和执行器。
图五:½½设计中 AI 应用程序的逻辑到物理架构
早期的架构权衡可以测试和评估假设,以快速识别瓶颈,并优化规格以满足时序,吞吐量,功率和功½要求。
在图五中,您将看到该架构模型需要硬件,½络,应用程序任务,传感器,衰减器和流量激励来获得整个系统运
行的可见性。
图六显示了此 ADAS 逻辑架构映射到物理架构的实现。½用架构模型的优点是½够分离设计的所有部分,从而可
以研究单个操½的性½。您会注意到现有任务是单独列出的,具有 ECU,传感器生成和 ADAS 逻辑任务组织的
½络。ADAS 任务图中的每个功½½映射到 ECU。
Advanced Driver Assistance System
图六:将 ADAS 映射到 ECU ½络的½½系统模型
仿真 ADAS 模型后,您可以获得各种报告。在图七中,显示了完成 ADAS 任务的等待时间以及与此任务相关的
www.s2ceda.com
5
评论