微软开源“傻瓜式”类ChatGPT模型训练工具，提速省钱15倍

在介绍了使用OpenAI的GPT-4为Bing聊天、Bing Image Creator、Microsoft365Copilot、Azure OpenAI服务、GitHub Copilot X提供的类似ChatGPT的功能后，微软现已宣布推出针对RLHF训练的低成本开源解决方案DeepSpeed-Chat，该解决方案基于微软开源深度学习优化库deep speed；据称，任何人甚至可以使用单个GPU创建高质量的ChatGPT模型。

该公司表示，尽管开源社区做出了巨大努力，但仍然缺乏基于人工反馈机制的支持端到端强化学习(RLHF)的大规模系统，这使得训练一个强大的类似ChatGPT的模型非常困难。ChatGPT模型的训练基于InstructGPT GPT论文中的RLHF方法，完全不同于常见的大型语言模型的预训练和微调，使得现有的深度学习系统在训练类ChatGPT模型时存在各种局限性。因此，为了让ChatGPT模型更容易被普通数据科学家和研究人员使用，让RLHF训练在AI社区真正流行起来，他们发布了DeepSpeed-Chat。

DeepSpeed-Chat有以下三个核心功能:

简化ChatGPT类型模型的训练和推理体验:只需要一个脚本就可以实现多个训练步骤，包括用Huggingface预训练的模型，用DeepSpeed-RLHF系统进行InstructGPT训练的全部三个步骤，甚至可以生成自己的类ChatGPT模型。此外，还提供了一个易于使用的推理API，供用户在模型训练后测试对话式交互。

DeepSpeed-RLHF模块:DeepSpeed-RLHF再现了InstructGPT论文中的训练模式，并确保包括a)监督微调(SFT)、b)奖励模型微调、c)基于人类反馈的强化学习(RLHF)三个步骤一一对应。此外，它还提供了数据抽象和混合功能，以支持用户使用来自不同来源的多个数据源进行训练。

DeepSpeed-RLHF系统:将DeepSpeed的训练引擎和推理机集成为统一的混合引擎或Deep Speed-He，用于RLHF训练。DeepSpeed-HE可以在RLHF中的推理和训练模式之间无缝切换，这使得它可以利用DeepSpeed-Inference的各种优化，如张量并行计算和高性能CUDA算子进行语言生成，同时，它还可以受益于训练部分基于零和LoRA的内存优化策略。DeepSpeed-HE还可以在RLHF的不同阶段自动进行智能内存管理和数据缓存。

文件中指出，DeepSpeed Chat与其他先进方案相比的优势在于，在效率和经济性方面比现有系统快15倍以上。在Azure cloud上训练一个OPT-13B模型只需要9个小时，训练一个OPT-30B模型只需要18个小时，分别花费不到300美元和600美元。

在速度和扩展性上，即使是13B的模型也能在1.25小时内训练完成，175B的庞大模型用64个GPU集群不到一天就能训练完成。在RLHF的可及性和普及性方面，单个GPU上可以训练超过130亿个参数的模型。此外，它还支持在同一硬件上分别运行6.5B和50B型号，实现了7.5倍的提升。

尽管最近有人反对和担心类似ChatGPT的大型语言模型的开发，但微软似乎正在推进其人工智能开发。对于微软的这次发布，前meta AI专家Elvis也兴奋地表示，DeepSpeed Chat提供了羊驼和骆马训练类似ChatGPT的模型所缺乏的端到端RLHF管道，解决了成本和效率的挑战。这是“微软令人印象深刻的开源努力”…这是一件大事”。

更多细节可在官方文件中找到:

https://github . com/Microsoft/deep speed/blob/master/blogs/deep speed-chat/Chinese/readme . MD

本文内容及图片均整理自互联网，不代表本站立场，版权归原作者所有，如有侵权请联系admin#jikehao.com删除。