基于 Transformer 的大型语言模型(LLM)在不同领域都表现出出色的性能,尤其是在针对特定领域进行微调时。最近的研究表明,微调 LLM 所需的资源可以通过低秩自适应(LoRA)等参数高效方法进行节约。虽然 LoRA有效地减轻了计算负担和资源需求,但它目前仅支持单作业微调设置。在本文中,我们介绍了 ASPEN,这是一个用于微调 LLM 的高吞吐量框架。ASPEN 使用 LoRA方法在单个 GPU 上有效地训练多个作业,利用共享的预训练模型和自适应调度。ASPEN 兼容基于 transformer的语言模型,如 LLaMA 和 ChatGLM 等。实验表明,在NVIDIA A100 80GB GPU 上训练多个 LLaMA-7B 模型时,ASPEN 节省了 53 % 的 GPU 内存,在不同 GPU 上使用各种预训练模型进行训练时,与现有方法相比,训练吞吐量提高了约 17 %。自适应调度算法将周转时间缩短了 24%,将端到端训练延迟缩短了 12 %,从而确定了作业的优先级并防止了内存不足的问题。
猜您喜欢
推荐内容
开源项目推荐 更多
热门活动
热门器件
用户搜过
随便看看
热门下载
热门文章
热门标签
评论