英伟达开源新模型,突破AI生成速度瓶颈
显存有一定要求,但其为大模型推理加速提供了一个极具潜力的技术方向。随着人工智能应用向高频、大规模场景渗透,这种通过算法架构优化来换取生成速度的思路,正在成为模型研发的新趋势。
于AI大模型生成效率的比拼里头, 英伟达今日给出了一种超硬核的解决办法。7月1日那天, 他们正式把最新的扩散语言模型给开源了, 以一种“双塔”架构直接去挑战传统自回归模型的吞吐量方面的瓶颈,使得文本生成不再像蜗牛那般缓慢。
传统模型的卡脖子问题
生成文本时, 传统自回归模型得一个词一个词串行解码, 好似排队过安检那般, 效率极其低。面对大规模合成事件, 像批量生成产品描述或者对话数据时, 这种设计下吞吐量就成了最大的短板。许多企业团队因这个所以卡在算力成本以及等待时间上, 没办法快速扩展业务。
英伟达此次开源的全新模型, 恰恰是将目标对准了这个痛点之处。他们摒弃了一直以来单纯堆砌硬件的想法, 转而在算法架构方面去寻觅突破的方向, 使得模型在相同的硬件状况之下能够跑出更高的效率来。
双塔架构如何破解效率难题
存在这样一种新模型, 其核心为“双塔”架构, 该架构将任务予以拆分, 拆分成两个彼此独立的部分。其中的第一个部分是“上下文塔”, 此 tower 负责处理那种由用户所输入的提示词, 并且始终保持原本的语言理解能力不发生任何改变, 与此同时, 它就如同是一个处于冻结状态的智慧大脑。而第二个部分是“去噪器塔”, 该塔专门负责以并行的方式去生成以及优化文本 token, 犹如像一条高速运动着的生产线一样。
这种分工使模型具备同时处理多个token的能力, 并非一个个依次排队。依据英伟达所公布的数据, 在2×评测环境里, 新模型默认设置保留了基线模型98.7%的生成质量, 然而实际吞吐量提升了2.42倍。这表明在同样的时间之中, 你能够产出将近两倍半的文本量。
质量与速度的平衡艺术
不少人忧心加速会致使质量受损, 然而英伟达凭数据证实两者能够兼而有之, 留存98.7%的生成质量, 这表明在绝大多数应用场景里边, 用户大体上感受不到差别, 像生成电商商品描述、新闻摘要或者客服回复之时, 模型输出的准确性以及流畅度依旧良好。
面向数据团队来讲, 这般平衡特别关键, 他们得批量制造合成文本用以模型训练或者测试, 要是质量下降过多, 后续工作是会受影响的, 而2.42倍的速度提升, 直截缩短了项目周期, 还降低了GPU租赁成本。
三种解码模式自由切换
极其灵活的新模型, 在具体运作当中, 支持扩散模式、模拟AR以及标准AR这三种解码方式, 开发者能够依据任务需求进行自由选择, 像是追求极致速度之时选用扩散模式, 而需要高精度推理之际采用标准AR模式, 如此这般的设计规避了“一刀切”的僵化情况。
此时, 该模型已然作为开放权重的项目予以发布, 它遵循着开放模型许可的协议, 对于商业用途是完全予以支持的, 这所意味的是, 中小企业同样能够直接进行下载并加以使用, 并不需要额外去支付费用, 如此便降低了技术方面的门槛。
性能回落与硬件门槛
虽说优势显著, 然而新模型并非毫无瑕疵。于代码生成以及数学推理的任务当中, 它跟原始基线相比较, 有着轻微性质的性能回落。像在生成复杂算法或者解答高等数学题目之际, 或许比不上传统的自回归模型那般精准, 这就需要开发者留意任务的匹配情况。
与此同时, 该模型对于GPU显存是有着一定要求的, 不是所有老旧的显卡都能够流畅地运行起来。团队在进行部署前是需要去评估自身的硬件配置的, 要避免出现内存溢出要么训练中断这种尴尬情况的发生。
加速推理成为行业新趋势
伴随AI应用朝着高频、大规模场景不断渗透, 速度已然成为模型研发的核心指标当中的一个, 英伟达借助算法架构优化以获得生成速度的这般思路, 正被更多团队所采纳, 未来, 我们有可能会目睹更多扩散模型、并行解码技术出现。
之于那些从事数据合成的开发者而言, 这个开源模型提供了一个极具潜力的技术方向, 之于从事内容生成的开发者来说亦是如此, 之于从事客服系统的开发者来讲同样这般。它证实了速度与质量能够共存, 且无需堆叠更多昂贵的GPU资源。
那种“双塔”架构, 你去想一想到了未来它会不会把传统自回归模型给替代掉, 而成为占据主导地位的存在呢? 在评论的区域里, 热烈欢迎你去把你的看法分享出来, 点一赞, 再转一转, 从而让更多的人知晓这一项全新的突破成果!