一、GPT-4:多模态、高认知、更安全
深耕AIGC领域,AI渗透全方面、各领域。OPENAI致力于用AI改变工作和创意,除ChatGPT的语言模型外,还通过API平台向开发者提供最新模型和指南,不断提高应用性能和用户活跃度。
GPT-4是大型多模态模型。相较于只能接受文字/代码输入的GPT-3.5,GPT-4接受图片+文字的多模态输入+高认知的结合,并反馈文字输出。GPT-4是OpenAI新一代自然语言处理模型,继承了GPT-3.5的优点的同时改进了模型结构、训练数据量和算法优化,应用范围跨越数学、编码、视觉、医学、法律、心理学等领域,GPT-4模型多领域的广泛运用和超高任务表现力接近甚至超越人类水平,因此GPT-4是AGI的开创性研究,也是迈向AGI的重要一步。
多模态:接受图片+文字形式输入
(资料图片仅供参考)
根据OpenAI技术文档给出的案例,GPT-4,对于图片的理解能力极强。 1)同时识别多张图片内容。如图2,将3张图片拼凑成1张,GPT-4能够同时识别多张图片的内容。2)根据图片进行算数运算。如图3,将题目发给GPT-4,它能根据图片信息进行算数运算。3)阅读并总结论文。如图4、图5,将论文中部分页面截图给GPT-4,即可阅读并总结主要内容并回答用户追加的相关问题。 4)解答高难度物理题目。如图6,将École Polytechnique(巴黎综合理工大学)物理考试题目传给GPT-4,并指定其解答某一问题,即可顺利识别任务并正确解答。
5)识别手写网页草图,并根据草图写出网页前端代码。如图7,将手写 “My Joke Website”网页样式传给GPT-4,GPT-4将反馈相应的前端代码,该代码不但可以顺利运行,也完全符合手绘草稿要求的内容和样式,具有极强的OCR(文字识别)能力。 6)理解人类社会常识,可读懂“网络梗图” ,具有更明显的“人性化”特征。如图8,用户提问“该图片中有什么特别之处?”GPT-4回答“男人在移动的出租车车顶烫衣服”是不符合人类社会常识之处,展示出惊人的理解力。如图9,用户请GPT-4回答图中的“梗”,GPT-4能够将“鸡块”和“世界地图”相联系,展示出强大的联想能力。
高认知:长文字处理+推理判断能力
GPT-4具有更强的长文字处理能力。GPT-4的上下文上限约为2.5万字,是Chat GPT的近8倍,允许使用长格式内容创建、扩展对话及文档搜索和分析等,能够阅读并记忆更多信息。 GPT-4有更高的推理判断能力。
GPT-4具有更高的认知水平。根据OpenAI给出的专业测试结果,GPT-4在高等数学、法律、生物、化学、英语、高级微观经济等学科的考试成绩远超GPT-3.5。 GPT-4在多领域的专业认知超过平均水准。在律师资格考试中,GPT-4的分数排名可以达到所有考生的前10%,而GPT-3.5只能排倒数10%,是GPT-4优化幅度最大的科目。此外,在GRE、SAT、历史、化学、生物、微观经济、宏观经济等科目中均超过至少80%以上的考生。编程能力(Codeforces Rating)反而是GPT-4最弱的科目,排名在倒数5%。
GPT-4的高认知特征具体体现在以下方面: 1)高常识推理能力。分别问Chat GPT和GPT-4“1+1什么情况等于3”时,Chat GPT只会从数学计算的角度思考,但GPT-4可以从常识推理的角度思考。 2)高可塑性。与Chat GPT不同,GPT-4能够以不同的语言风格与用户交流。当被设定为某个角色时,GPT-4将不会听从违背角色特征的指令。 3)高解决问题能力。GPT-4能够处理复杂问题,比如运用学习到的税务知识帮助用户解决税务问题。结合税法的高时效性与GPT-4的长文字处理能力,用户可以将最新的税法传给GPT-4后要求其为自己解决税务筹划问题。
更安全:分辨能力提高
GPT-4的可靠性大幅提升。相较于GPT-3.5(会随着持续迭代而改善),GPT-4显著减少了“虚构”现象。在内部设计的对抗性准确度评估中,GPT-4各科目平均得分比GPT-3.5高出19%。其中,提升幅度在历史和数学科目上的表现尤为突出。 GPT-4的分辨能力有显著提升,但仍存在改进空间。相较于GPT-3.5,GPT-4在公开基准测试TruthfulQA(测试模型真实性性能好坏的一个测试集)中取得了进步,体现为较高的分辨事实能力。如图21,在零样本(0-shot)提示、小样本(few-shot)提示和人类反馈强化学习(RLHF)微调后的表现中,GPT-4均明显优于GPT-3.5和Anthropic-LM,但GPT-4对TruthfulQA中的某些问题依然给出了错误的回答。
GPT-4优化了安全性指标,能够有效减少有害风险信息的提供。从响应率来看,GPT-4对违规内容(如制作炸弹的方法)请求的响应率相较于GPT-3.5降低了82%,对敏感内容请求(如医疗建议和自我伤害建议等)的响应率降低了29%,RLHF后的GPT-4的响应率则更低。从反馈“有害信息”的可能性来看,GPT-4在Real Toxicity Prompts 数据集的测试中仅有0.73%的概率生成“有害信息”,而GPT-3.5的概率为6.48%。
二、Deep Speed:更快速、更经济、更普及
DeepSpeed 更高速度 更大规模
DeepSpeed是PyTorch的开源的兼容库,在深度学习训练和推理方面具有极高的速度和规模。DeepSpeed通过提高规模、速度、成本和可用性来改进大型模型训练,可训练超100亿个参数的模型,实现了自然语言处理(NLP)和多模态(结合语言图像、视频和语音)等领域的突破。
Deep Speed Chat基于微软Deep Speed深度学习优化库开发而成。Deep Speed Chat可在模型训练中加入完整RLHF流程,用于RLHF训练的低成本开源解决方案,使得复杂的RLHF训练变得快速、经济、轻松访问,实现类似ChatGPT模型的端到端RLHF训练,从而帮助我们生成自己的高质量ChatGPT模型。相较于ChatGPT,Deep Speed Chat普及RLHF(基于人工反馈机制的强化学习)训练到AI社区,削弱了ChatGPT的局限性。
Deep Speed 三大核心功能
在微软开源DeepSpeed Chat之后,普通用户可通过简单的操作,即可训练类ChatGPT等大语言模型,降低了ChatGPT类模型使用的门槛和成本,主要通过以下三个核心功能来达到:
简化ChatGPT类型模型的训练并强化推理体验:DeepSpeed-Chat仅需一个脚本即可实现多个训练步骤,如使用Huggingface预训练模型、使用DeepSpeed-RLHF系统运行InstructGPT训练的所有三个步骤、生成自己的ChatGPT模型。此外,在模型训练后可以利用推理API进行对话交互测试。
DeepSpeed-RLHF模块:DeepSpeed-RLHF模块复刻InstructGPT论文中的训练模式,并确保监督微调(SFT)、奖励模型微调和人类反馈强化学习 (RLHF)的三个步骤与其一一对应,提供数据抽象和混合功能来支持开发者使用多个不同数据源进行训练。
DeepSpeed-RLHF系统:DeepSpeed-RLHF系统将DeepSpeed的训练和推理能力整合成统一混合引擎(DeepSpeed-HE)中,用于RLHF训练。DeepSpeed Hybrid Engine是为RLHF训练提供更高性能和效率的混合引擎,它结合了DeepSpeed的训练引擎和推理引擎,在训练和推理模式之间自由切换,为RLHF的训练和推理提供了更快的速度,也优化了内存和缓存数据。
DeepSpeed Hybrid Engine 优势
高效性和经济性:DeepSpeed-HE提供高效的RLHF训练模式,训练速度较现有系统快15倍以上,使RLHF训练快速且经济实惠。 卓越的扩展性:DeepSpeed-HE能支持训练拥有数千亿参数的模型,并在多节点多GPU系统上展现出其卓越的扩展性。因此,即使是拥有130亿参数的模型,也仅需1.25小时即可完成训练。对拥有1750亿参数的庞大模型,使用DeepSpeed-HE进行训练也只需不到一天的时间。 普及RLHF训练:DeepSpeed-HE凭借单个GPU即可支持训练超1300亿参数的模型,使无法多GPU系统的数据科学家既可以轻松创建轻量级的RLHF模型,又可以创建功能强大、能用于不同场景的的大型模型。
训练步骤
Deep Speed 的训练生成流程分为三个步骤: 1)监督微调(SFT)。预训练语言模型通过监督微调(SFT)进行微调,使用精选的人类回答来调整训练的语言模型。2)奖励微调模型。使用人类对同一查询的多个答案打分的数据集,去训练一个不同的(通常小于SFT)奖励模型(RW)。3)RLHF训练。使用近端策略优化(Proximal Policy Optimization,PPO)算法,利用奖励模型的奖励反馈,进一步调整SFT模型。
训练性能评估
与现有RLHF系统(如Colossal-AI或HuggingFace)相比,DeepSpeed-RLHF在系统性能和模型可扩展性表现出色,DeepSpeed-HE的吞吐量提高了一个数量级以上,能够在相同的延迟预算下训练更大的模型。
Deep Speed Chat开源意义
开源Deep Speed Chat,降低垂类场景大模型训练门槛。ChatGPT只用了几个月便席卷全球,成为史上用户增长速度最快的消费级应用,推动世界的经济发展和科技研发。但庞大的资金资源投入限制了很多企业和个人用户的使用,微软为解决这一限制,开源Deep Speed Chat模型。
解决训练类ChatGPT模型的局限性,做更快速、更经济、更易于推广的大模型。ChatGPT模型训练基于InstructGPT论文中的RLHF方式,解决了现有深度学习系统在训练类ChatGPT模型时存在的种种局限。Deep Speed Chat只需一个脚本即可实现预训练模型、监督微调、奖励模型微调和RLHF的多个步骤训练,简化了ChatGPT类模型的训练和强化推理,并将DeepSpeed的训练能力和推理能力整合到一个混合引擎中(DeepSpeed-HE),集成高效且经济的DeepSpeed-RLHF系统,使复杂的RLHF训练变得快速、经济且易于推广,以达到最佳效果。
通过更多的下游用户参与来推动行业发展。微软此次开源Deep Speed Chat就像初期互联网为提升发展速率降低台式机的价格,使普通用户也可拥有自己的电脑。更多的参与用户才能快速壮大行业生态,因此微软此次开源对ChatGPT生态发展起到了至关重要的推动作用,使得人人都能拥有自己的ChatGPT。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
关键词:
