pdf

Optimizing Loop Operation and Dataflow in FPGA Acceleration of Deep...

  • 1星
  • 日期: 2021-01-07
  • 大小: 4.27MB
  • 所需积分:1分
  • 下载次数:0
  • favicon收藏
  • rep举报
  • 分享
  • free评论
标签: 卷积神经网络

卷积神经网络

CNN

卷积神经网络

FPGA

FPGA(Field-Programmable Gate Array),即现场可编程门阵列,它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。 系统设计师可以根据需要通过可编辑的连接把FPGA内部的逻辑块连接起来,就好像一个电路试验板被放在了一个芯片里。一个出厂后的成品FPGA的逻辑块和连接可以按照设计者而改变,所以FPGA可以完成所需要的逻辑功能。FPGA一般来说比ASIC(专用集成芯片)的速度要慢,无法完成复杂的设计,但是功耗较低。但是他们也有很多的优点比如可以快速成品,可以被修改来改正程序中的错误和更便宜的造价。厂商也可能会提供便宜的但是编辑能力差的FPGA。因为这些芯片有比较差的可编辑能力,所以这些设计的开发是在普通的FPGA上完成的,然后将设计转移到一个类似于ASIC的芯片上。

Optimizing  Loop  Operation  and  Dataflow  in  FPGA  Acceleration  of  Deep  Convolutional  Neural  Networks

作者:Yufei  Ma,Yu  Cao,Sarma  Vrudhula,Jae-sun  Seo

As  convolution  layers  contribute  most  operations  in  convolutional  neural  network  (CNN)  algorithms,  an  effective  convolution  acceleration  scheme  significantly  affects  the  efficiency  and  performance  of  a  hardware  CNN  accelerator.  Convolution  in  CNNs  involves  three-dimensional  multiply  and  accumulate  (MAC)  operations  with  four  levels  of  loops,  which  results  in  a  large  design  space.  Prior  works  either  employ  limited  loop  optimization  techniques,  e.g.  loop  unrolling,  tiling  and  interchange,  or  only  tune  some  of  the  design  variables  after  the  accelerator  architecture  and  dataflow  are  already  fixed.  Without  fully  studying  the  convolution  loop  optimization  before  the  hardware  design  phase,  the  resulting  accelerator  can  hardly  exploit  the  data  reuse  and  manage  data  movement  efficiently.  This  work  overcomes  these  barriers  by  quantitatively  analyzing  and  optimizing  the  design  objectives  (e.g.  required  memory  access)  of  the  CNN  accelerator  based  on  multiple  design  variables.  We  systematically  explore  the  trade-offs  of  hardware  cost  by  searching  the  design  variable  configurations,  and  propose  a  specific  dataflow  of  hardware  CNN  acceleration  to  minimize  the  memory  access  and  data  movement  while  maximizing  the  resource  utilization  to  achieve  high  performance.  The  proposed  CNN  acceleration  scheme  and  architecture  are  demonstrated  on  a  standalone  Altera  Arria  10  GX  1150  FPGA  by  implementing  end-to-end  VGG-16  CNN  model  and  achieved  645.25  GOPS  of  throughput  and  47.97  ms  of  latency,  which  is  a  >3.2×  enhancement  compared  to  state-of-the-art  FPGA  implementations  of  VGG  model.

更多简介内容

推荐帖子

评论

登录/注册

意见反馈

求资源

回顶部

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版 版权声明

北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2021 EEWORLD.com.cn, Inc. All rights reserved
$(function(){ var appid = $(".select li a").data("channel"); $(".select li a").click(function(){ var appid = $(this).data("channel"); $('.select dt').html($(this).html()); $('#channel').val(appid); }) })