热搜关键词: 数字信号处理RTOSC语言Linux射频电路

pdf

Optimizing Loop Operation and Dataflow in FPGA Acceleration of Deep...

  • 1星
  • 2021-01-07
  • 4.27MB
  • 需要2积分
  • 3次下载
标签: 卷积神经网络

卷积神经网络

CNN

卷积神经网络

FPGA

卷积神经网络

Optimizing  Loop  Operation  and  Dataflow  in  FPGA  Acceleration  of  Deep  Convolutional  Neural  Networks

作者:Yufei  Ma,Yu  Cao,Sarma  Vrudhula,Jae-sun  Seo

As  convolution  layers  contribute  most  operations  in  convolutional  neural  network  (CNN)  algorithms,  an  effective  convolution  acceleration  scheme  significantly  affects  the  efficiency  and  performance  of  a  hardware  CNN  accelerator.  Convolution  in  CNNs  involves  three-dimensional  multiply  and  accumulate  (MAC)  operations  with  four  levels  of  loops,  which  results  in  a  large  design  space.  Prior  works  either  employ  limited  loop  optimization  techniques,  e.g.  loop  unrolling,  tiling  and  interchange,  or  only  tune  some  of  the  design  variables  after  the  accelerator  architecture  and  dataflow  are  already  fixed.  Without  fully  studying  the  convolution  loop  optimization  before  the  hardware  design  phase,  the  resulting  accelerator  can  hardly  exploit  the  data  reuse  and  manage  data  movement  efficiently.  This  work  overcomes  these  barriers  by  quantitatively  analyzing  and  optimizing  the  design  objectives  (e.g.  required  memory  access)  of  the  CNN  accelerator  based  on  multiple  design  variables.  We  systematically  explore  the  trade-offs  of  hardware  cost  by  searching  the  design  variable  configurations,  and  propose  a  specific  dataflow  of  hardware  CNN  acceleration  to  minimize  the  memory  access  and  data  movement  while  maximizing  the  resource  utilization  to  achieve  high  performance.  The  proposed  CNN  acceleration  scheme  and  architecture  are  demonstrated  on  a  standalone  Altera  Arria  10  GX  1150  FPGA  by  implementing  end-to-end  VGG-16  CNN  model  and  achieved  645.25  GOPS  of  throughput  and  47.97  ms  of  latency,  which  is  a  >3.2×  enhancement  compared  to  state-of-the-art  FPGA  implementations  of  VGG  model.

展开预览

猜您喜欢

评论

登录/注册

积分规则

意见反馈

求资源

回顶部

推荐内容

热门活动

热门器件

随便看看

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

 
机器人开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版 版权声明

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2026 EEWORLD.com.cn, Inc. All rights reserved
×