华为开源920亿参数大模型，长文本低延迟加速AI商业创新

最后更新时间：2026年7月1日 15:11 Zevo 20

智能摘要

在当前全球大模型技术向长文本、低延迟演进的背景下，此举旨在加速人工智能的商业创新，进一步打造Agent时代的智能底座并繁荣昇腾开发者生态。该大模型具备512K超长上下文处理能力，并采取了分化配置的矩阵策略，包含Pro和Flash两个版本，以满足不同的工业级应用场景。

开源就是硬道理

华为在此番直接抛出了盘古大模型2.0 – Flash版本的完整模型权重, 其中92亿参数皆已公开, 于6月30日已然上线开源平台, 任何人均能够免费下载予以使用, 这并非是所谓的试用版或者阉割版, 乃是完整的工业级模型, 还附带基础推理代码以及训练推理算子, 华为如此行径, 便是要让开发者实实在在地能够运用起来, 而非仅仅摆出个空架子。

512K超长上下文能力

这个仅有92亿参数的闪存版本, 具备512K的超长上下文处理能力, 512K意味着什么呢? 它能够一次性处理几十万字的文本内容, 比市面上诸多百亿参数模型更加出色。华为在技术架构方面进行了优化, 其激活参数仅有6B, 即是每次推理时仅调动6亿参数参与计算, 这样既保障了性能又减少了资源消耗。

轻量化高并发推理

Flash版本有着很清晰的设计思路, 那便是要跑得迅速, 还要跑步频次高数量多。92亿的总参数搭配6B激活参数, 使得这个模型在维持推理质量之际, 能够支撑高并发访问。对于企业级应用而言, 这表明能够运用数量更少的服务器去服务数量更多的用户。华为自身实测得出的数据表明, 在同等硬件条件的状况时, 推理吞吐量相较于同类开源模型提升显著且突出。

两个版本差异化覆盖

华为此番施行的乃是矩阵策略, 划分出Pro以及Flash这两个版本。于今日进行开源的是Flash版本, 其着重突出轻量以及效率。在下个月也就是7月份的时候, Pro版本也将会登场, 其总参数为505B, 激活参数是18B, 这可是实实在在的重量级角色。Pro版对于复杂推理以及深度分析任务而言更为适配, Flash版则适宜高频实时场景, 二者构成互补态势。

昇腾原生训练推理技术

这套模型全然依据昇腾硬件开展原生训练以及推理, 并非从别的平台移植而来。华为所表达的意思清晰明了, 即为要给昇腾生态塑造一个标杆案例, 使得开发者能够瞧见在昇腾上构建大模型究竟能够运行得多么出色。全部开源代码以及算子均已在昇腾芯片上验证通过, 能够直接进行部署, 无需二次适配。

加速Agent时代商业创新

华为进行开源, 其最终目的所要达成的, 是促使AI的商业落地得以加速。当下的AI趋势已然发生转变, 已然是从单纯的对话模型转而向Agent智能体, 这就需要模型具备工具调用、多步推理、环境交互等诸多能力。盘古所进行开源的模型, 提供了底层的语言理解以及生成能力, 开发者能够在此基础之上, 迅速构建起自身的Agent应用, 无需再从头开始训练大模型, 如此大大地降低了企业进入AI领域的门槛。

有没有想过, 华为此次进行开源的举动, 究竟会给国内人工智能的开发生态造成多大程度的影响呢? 欢迎来到评论区留言展开讨论, 要是你认为它是有用的, 那就请点赞并且分享出去, 从而让更多的人能够看到。

豆包App内置导航功能上线，AI语音导航步行骑行路线

谷歌限制Meta对Gemini访问，致其多项目延误，Meta紧急应对

名校毕业投8000份简历没回应，AI时代高学历也难找工作

美团万亿参数大模型LongCat-2.0开源国产算力集群训练