新闻资讯
DeepSeek V4来了!百万上下文开源模型新巅峰
Context)的平民化时代,以及开源Agent能力、世界知识和推理性能上的新巅峰,已经到来。可以说,DeepSeek-V4-Pro已经达到了开源模型的新巅峰,对标全球顶尖闭源水准。先独立训练数学、代码、Agent等领域专家,再用一个学生模型对十几个专家做全词表logit蒸馏。
近来,AI领域又有重磅消息传来,开源模型阵营中出现了一款堪称真正性能怪兽的存在。V4系列预览版已正式予以发布,将百万级上下文能力交付给了全球的开发者们。这表明处理超长文本不再只是闭源模型专属的专利,所有人都能够免费运用顶级AI能力。
V4系列存有两个版本,可满足不一样场景的需求,性能版V4 Pro具备1.6万亿的总参数,其激活参数达到490亿,称得上是性能怪兽,经济版V4 Flash有着2840亿总参数,激活参数仅有130亿,主要侧重于高效率低成本的API服务,这两个版本自今日起正式进行开放具备。
Agent能力首次超越闭源标杆
V4 Pro于Agent任务方面的表现,已然处于开源模型首位。经实测数据表明,其编码体验超越了GPT - 4.5,代码交付质量在追踪Opus 4.6的非思考模式时不相上下。当下于公司内部,V4 Pro已作为开发人员编写Agent程序的首选模型。
于知识测评维度当中,V4 Pro显著超越了其余开源模型,它跟闭源标杆,也就是Claude Sonnet 3.1的差距已然缩减至极为微小的范畴,在数学推理、STEM学科以及高难度竞赛代码这些核心领域里,V4 Pro不光于开源社区中占据主导地位,还拥有了向全球最为强大的闭源模型发起挑战的能力。
混合注意力架构实现效率革命
V4并非单纯地堆砌硬件,而是别出心裁地设计出了混合注意力架构,它借助压缩稀疏注意力对KV缓存展开token维度的压缩,并且与动态稀疏注意力技术相结合,这种长短相互结合的策略,极大程度地削减了处理百万上下文时所需的计算量以及显存需求。
在旨在提升信号传播稳定性以及增强模型表达力的情形下,V4 引入了多路残差连接结构,此结构对传统残差连接予以了升级处理。通过这般方式,模型于深层网络里依旧能够维持卓越的建模能力。与此同时,全新的 Muon 优化器被引入,如此一来,训练过程使得它不仅可以收敛得更快,并且还会更加稳定。
推理效率实现质的飞跃
在一百万个token上下文的那种极端情形之下,V4 Pro的单个token推理计算量仅仅就是前代产品的百分之二十七。KV缓存占用更是缩小到了令人吃惊的百分之十。这表明在相同硬件配置的状况之下,V4能够处理相较于之前近乎多十倍的长文本任务?
把常规BF16 GQA8当作基线,V4在百万token时的KV缓存仅是基线的大约2%。推理端将压缩KV与滑动窗口KV分开进行管理,对磁盘级缓存存储予以支持。如此做防止了共享前缀的重复计算,极大地提升多轮对话以及长文档处理的响应速度。
V4 Flash主打经济高效
虽说V4 Flash于世界知识深度方面比Pro版本稍差些,可它留存了近乎Pro版的逻辑推理水准,鉴于参数规模更为精简,它能够给出响应更快、成本更低的API接入方案,对于普通开发者以及中小企业而言,这是个性价比特别高的选择。
拿处理基础Agent任务来说,V4 Flash呈现出的表现跟Pro版没什么差别,只不过在面对极端复杂任务之际仍有着可提升的余地,从现在开始,100万token的超长上下文会作为官方服务的标准配置,原本的旧模型名称会在2026年7月24日正式停止使用,开发者得留意及时去迁移。
深度适配主流开发场景
有着针对Code、Python、Java、C++等主流Agent开发生态进行深度适配的V4,在代码编写以及自动化文档生成等场景当中,产出效率提升极为明显,对其实测反馈表明,使用V4去处理万行级别的代码库,理解准确度以及修改建议质量都相当出色。
V4在工程实现层面做了诸多大量的优化,它将为路由索引进行计算的工作与对主干网络予以更新的工作进行了解耦处理,通过利用历史参数预先计算好路由,进而进行缓存。在MoE工程领域,把通信以及计算融入到单个操作之中,在通用场景下实现了加速1.5至1.73倍,在延迟敏感场景中最高能够加速1.96倍。
从V3突然问世,到V4带来效率变革,这家公司一直坚持,将顶级技术经由开源方式分享给社区。V4上线,这不仅是技术参数的跃升,更是针对百万长上下文以及高性能Agent这两大趋势的有力回应。它证实了经由架构创新,能够在不损坏性能的情况下,极大程度降低大模型使用门槛。
认为百万级上下文能力,会最先对代码开发这一领域产生改变,或者是文档处理这个范畴,又或者是学术研究方面,欢迎于评论区将你的看法予以分享,要记得点赞以及转发,从而能让更多的开发者目睹到这个好消息。


