热搜关键词: 电路基础ADC数字信号处理封装库PLC

pdf

ASPEN:使用单个 GPU 对大型语言模型进行高吞吐量 LoRA 微调

  • 1星
  • 2024-05-13
  • 1.19MB
  • 需要1积分
  • 0次下载
标签: GPU

GPU

大型语言模型

大型语言模型

基于  Transformer  的大型语言模型(LLM)在不同领域都表现出出色的性能,尤其是在针对特定领域进行微调时。最近的研究表明,微调  LLM  所需的资源可以通过低秩自适应(LoRA)等参数高效方法进行节约。虽然  LoRA有效地减轻了计算负担和资源需求,但它目前仅支持单作业微调设置。在本文中,我们介绍了  ASPEN,这是一个用于微调  LLM  的高吞吐量框架。ASPEN  使用  LoRA方法在单个  GPU  上有效地训练多个作业,利用共享的预训练模型和自适应调度。ASPEN  兼容基于  transformer的语言模型,如  LLaMA  和  ChatGLM  等。实验表明,在NVIDIA  A100  80GB  GPU  上训练多个  LLaMA-7B  模型时,ASPEN  节省了  53  %  的  GPU  内存,在不同  GPU  上使用各种预训练模型进行训练时,与现有方法相比,训练吞吐量提高了约  17  %。自适应调度算法将周转时间缩短了  24%,将端到端训练延迟缩短了  12  %,从而确定了作业的优先级并防止了内存不足的问题。

展开预览

猜您喜欢

评论

登录/注册

意见反馈

求资源

回顶部

推荐内容

热门活动

热门器件

随便看看

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved
×