人手一个专属ChatGPT？微软开源“傻瓜式”工具训练速度提升15倍 - 热讯财经网

《科创板日报》4月13日讯（编辑郑远方）当地时间4月12日，微软宣布开源DeepSpeed-Chat，帮助用户轻松训练类ChatGPT等大语言模型，人人都有望拥有专属ChatGPT。

开源地址：https://github.com/microsoft/DeepSpeed

OpenAI之前明确表示拒绝开源GPT-4，也收获了无数“OpenAI并不open”的吐槽。而AI开源社区已推出LLaMa、Vicuna、Alpaca等多个模型，帮助开发者开发类ChatGPT模型。

即便如此，现有解决方案下训练数千亿参数的最先进类ChatGPT模型依旧困难，主要瓶颈便在于缺乏RLHF训练普及——而微软本次开源的DeepSpeed-Chat，便补齐了最后这一块“短板”，帮助在模型训练中加入完整RLHF流程的系统框架。

(资料图片仅供参考)

仅需一个脚本，便可以完成RLHF训练的全部三个阶段，类ChatGPT大语言模型生成唾手可得，堪称“傻瓜式操作”。

图|DeepSpeed-Chat的RLHF 训练流程图示，包含了一些可选择功能（来源：微软）

这还不是DeepSpeed-Chat唯一的优势，微软提供了中、英、日三语文档，作出了详细介绍。总体来说，其核心功能与性能包括：

1. 简化类ChatGPT模型训练、强化推理体验。

2. DeepSpeed-RLHF模块复刻了InstructGPT论文中的训练模式。同时，DeepSpeed将训练引擎与推理引擎共同整合到了一个统一混合引擎用于RLHF训练。

3. 高效性和经济性：可将训练速度提升15倍以上，并大幅度降低成本。例如，DeepSpeed-HE若在Azure云上训练一个OPT-30B模型，仅需18小时、花费不到300美元。

4. 卓越的扩展性：可支持训练数千亿参数模型，并在多节点多GPU系统上扩展性突出，只需1.25小时就可完成训练一个130亿参数模型。

5. 实现RLHF训练普及化：仅凭单个GPU，DeepSpeed-HE就能支持训练超过130亿参数的模型。因此无法使用多GPU系统的数据科学家和研究者，不仅能创建轻量级RLHF模型，还能创建大型且功能强大的模型。

此外，与Colossal-AI、HuggingFace等其他RLHF系统相比，DeepSpeed-RLHF在系统性能和模型可扩展性方面表现出色：

就吞吐量而言，DeepSpeed在单个GPU上的RLHF训练中实现10倍以上改进；多GPU设置中，则比Colossal-AI快6-19倍，比HuggingFace DDP快1.4-10.5倍。

就模型可扩展性而言，Colossal-AI可在单个GPU上运行最大1.3B的模型，在单个A100 40G 节点上运行6.7B的模型，而在相同的硬件上，DeepSpeed-HE可分别运行6.5B和50B模型，实现高达7.5倍提升。

因此，凭借超过一个数量级的更高吞吐量，DeepSpeed-RLHF比Colossal-AI、HuggingFace，可在相同时间预算下训练更大的actor模型，或以1/10的成本训练类似大小的模型

推荐内容

人手一个专属ChatGPT？微软开源“傻瓜式”工具训练速度提升15倍

2023-04-13
每日精选：403秒！中国“人造太阳”获重大突破

2023-04-13
环球新消息丨国务院联防联控机制印发新版佩戴口罩指引

2023-04-13
每日关注!夜间经济激发消费活力

2023-04-13
习近平在广州市考察调研

2023-04-13
世界观天下！新华社权威快报丨增速转正，一季度我国外贸开局平稳

2023-04-13
全球消息！2023年3月中国SUV销量前十车型排行榜

2023-04-13
臭氧层保护日是哪一天？臭氧层空洞出现在哪里？

2023-04-13
环球聚焦：诺禾致源2022年增收不增利海外收入占比超40% 今年Q1业绩同比重拾升势

2023-04-13
即时看！以金融力量助力乡村振兴长江证券研究所推出乡村振兴系列指数

2023-04-13
环球最资讯丨车险自主定价系数区间4月底再扩大 “好车主”车险价格最多可再降23%

2023-04-13
天天热消息：佳发教育2022年增收不增利智慧教育产品毛利率下滑明显

2023-04-13
天天热文：入围50亿订单遭质疑泉为科技“吃”关注函

2023-04-13
每日热点：佰维存储股价会成“空中楼阁”吗

2023-04-13
焦点资讯：北京君正2022年业绩未达标终止股票激励计划股东纷纷减持

2023-04-13
世界最资讯丨以金融力量助力乡村振兴长江证券研究所推出乡村振兴系列指数

2023-04-13
AI将主宰战场？解放军报：从ChatGPT看人工智能的军事应用

2023-04-13
20230412复盘科技应用传媒游资爆发

2023-04-13
天天观速讯丨10.6万亿元！首季我国新增人民币贷款同比创新高

2023-04-13
场外衍生品业务为券商贡献稳定收益成为综合金融服务“助推器”

2023-04-13
汉王科技收年报问询函利润分配等多项问题引关注

2023-04-13
最新消息：佳发教育2022年增收不增利智慧教育产品毛利率下滑明显

2023-04-13
全球快报:北京君正2022年业绩未达标终止股票激励计划股东纷纷减持

2023-04-13
家暴受害方离婚时怎么判

2023-04-13
天天速讯：年内113家公司公告定增方案已完成 49家定增金额超10亿元

2023-04-13
沪市上市公司现金分红热情高大手笔回购增持频现

2023-04-13
环球新动态：终端需求受抑制晶晨股份2022年业绩承压但多个新项目有望今年量产

2023-04-13
年内113家公司公告定增方案已完成 49家定增金额超10亿元

2023-04-13
当前最新：环球时报答读者问：日本技能实习生培训项目是什么？

2023-04-13
分化中选择指标组合更理想的个股

2023-04-13
韶能股份（000601）：4月12日北向资金增持11.48万股

2023-04-13
今日热议：新鲜高山土豆怎么保存最好新鲜高山土豆如何保存最好

2023-04-13
每日播报!天津武清英华国际学校小学部天津武清英华国际学校

2023-04-12
环球速读：华光新材经营现金流连负7年上市即巅峰中国银河保荐

2023-04-12
华钰矿业收监管工作函就中信证券收警示函涉事自查

2023-04-12
环球快报:集采之下拳头产品降价80% 苑东生物2022年营收仍同比增长14.43%

2023-04-12
每日热讯!【早盘早知道】20230412筹备周总结，去弱留强（宓睿）

2023-04-12
世界热资讯！华钰矿业收监管工作函就中信证券收警示函涉事自查

2023-04-12
王俊凯活动生图面部浮肿，大小眼明显。女星倪妮、周也状态佳

2023-04-12
国家自然资源部：出台促进新能源等产业发展支持政策鼓励社会资本投资找矿

2023-04-12
20230412收评：轮动交替上行，波段操作先行

2023-04-12
非绿直播哪个好_非绿直播平台

2023-04-12
拟再融一个IPO！皓元医药加速拓展“第二增长曲线” 分子砌块的尽头是CDMO？

2023-04-12
当前热讯：左侧买点教学

2023-04-12
世界今日报丨洪九果品紧急停牌引众议分析师称“或为配售规则细微解读偏差”

2023-04-12
每日观察!均胜电子：子公司近期新获某知名车企客户全球性项目定点预计全生命周期订单总金额约130亿元

2023-04-12
近10个交易日15股获高管增持，百克生物获最多增持

2023-04-12
新资讯：4月12日龙虎榜解析：光线传媒当日净买入额最多

2023-04-12
环球观天下！洪九果品紧急停牌引众议分析师称“或为配售规则细微解读偏差”

2023-04-12
全球即时：淄博市烧烤协会登记成立！淄博登记成立2家烧烤协会

2023-04-12