减少内存消耗、降低大模型训练成本,ACL杰出论文作者揭秘CAME优化器

简介: 减少内存消耗、降低大模型训练成本,ACL杰出论文作者揭秘CAME优化器

在语言模型的训练中,优化器往往占据了大量的内存使用。然而,随着大语言模型参数量的不断增加,随之而来的是训练时的内存消耗更为严峻。

目前,自适应梯度优化算法,如 Adam 和 LAMB,在大规模语言模型的训练中表现出出色的训练性能。然而,传统优化算法对自适应的需求需要保存每个参数梯度的二阶矩估计,从而导致额外的内存开销。

为了解决这个问题,研究者们提出了一些内存高效的优化器(例如 Adafactor),以大幅减少额外内存的使用,但已有的内存节约优化器通常会牺牲部分训练性能。

在本研究中,来自新加坡国立大学、华为诺亚方舟实验室的研究者首先设计了一种置信度引导策略来降低现有内存节约优化器的训练不稳定性。基于这一策略,他们进一步提出了 CAME 优化器,旨在同时实现两个目标:传统自适应方法的快速收敛和内存高效方法的低内存使用。

大量实验证明了 CAME 在 BERT、GPT-2 等语言模型训练任务中的训练稳定性和出色性能。值得注意的是,在批量大小为 32k 的大批量 BERT 预训练场景下,与 Adam 优化器相比,该研究提出的 CAME 优化器实现了更快的收敛速度和更高的收敛精度,这是对现有内存节约优化器的重要扩展。

为了让大家更好的了解这一研究,机器之心最新一期线上分享邀请到了论文第一作者罗旸,通过本次分享,大家可以更深入的了解这一项研究。



分享主题:CAME 优化器分享:置信度引导的内存节约优化算法

嘉宾简介:罗旸为新加坡国立大学在读硕士生,导师为尤洋教授,HPC-AI 实验室成员。本科毕业于武汉大学,研究兴趣包含机器学习以及高性能计算,当前研究重点为大模型训练的稳定性以及高效训练。

分享摘要:本次分享将首先对大规模语言模型优化算法的相关工作进行概述,随后重点阐述提出的置信度引导策略如何有效解决已有的内存节约优化器中存在的训练不稳定问题,进一步详细介绍基于此策略提出的 CAME 优化器。

相关链接

论文链接:https://arxiv.org/abs/2307.02047

相关文章
|
2天前
|
机器学习/深度学习 存储 PyTorch
【AMP实操】解放你的GPU运行内存!在pytorch中使用自动混合精度训练
【AMP实操】解放你的GPU运行内存!在pytorch中使用自动混合精度训练
77 0
|
2天前
|
存储 机器学习/深度学习 算法
如何准确的估计llm推理和微调的内存消耗
最近发布的三个大型语言模型——Command-R+ (104B参数), Mixtral-8x22b (141B参数的MoE模型), 和 Llama 3 70b (70.6B参数)——需要巨大的内存资源。推理时,Command-R+需193.72GB GPU RAM,Mixtral-8x22B需262.63GB,Llama 370b需131.5GB。激活的内存消耗根据序列长度、批大小等因素变化。文章详细介绍了计算这些模型内存需求的方法,并探讨了如何通过量化、优化器优化和梯度检查点减少内存使用,以适应微调和推理。
44 0
|
2天前
|
人工智能 自然语言处理 物联网
极大降低大模型训练内存需求,Meta等推出高效方法
【2月更文挑战第27天】极大降低大模型训练内存需求,Meta等推出高效方法
39 2
极大降低大模型训练内存需求,Meta等推出高效方法
|
2天前
|
机器学习/深度学习 存储 人工智能
从16-bit 到 1.58-bit :大模型内存效率和准确性之间的最佳权衡
通过量化可以减少大型语言模型的大小,但是量化是不准确的,因为它在过程中丢失了信息。通常较大的llm可以在精度损失很小的情况下量化到较低的精度,而较小的llm则很难精确量化。
58 0
|
2天前
|
人工智能 物联网 开发者
田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型
【2月更文挑战第18天】田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型
58 2
田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型
|
2天前
|
存储 Java C++
JVM内存模型和结构详解(五大模型图解)
JVM内存模型和结构详解(五大模型图解)
|
2天前
|
程序员 编译器 C++
C++核心编程一:内存分区模型(持续更新)
C++核心编程一:内存分区模型(持续更新)
|
7月前
|
Java
每日一道面试题之什么是Java内存模型?
每日一道面试题之什么是Java内存模型?
|
2天前
|
存储 缓存 并行计算
DP读书:鲲鹏处理器 架构与编程(四)内存顺序模型与内存屏障
DP读书:鲲鹏处理器 架构与编程(四)内存顺序模型与内存屏障
41 1
|
2天前
|
存储 缓存 NoSQL
Redis 数据结构+线程模型+持久化+内存淘汰+分布式
Redis 数据结构+线程模型+持久化+内存淘汰+分布式
313 0
http://www.vxiaotou.com