DeepSeek-V4模型上线支持百万超长上下文

模型预览版正式上线并同步开源。模型按大小分为两个版本：超长上下文记忆的全新体验。附两款模型的官方介绍如下：Attention），实现了全球领先的长上下文能力，并且相比于传统方法大幅降低了对计算和显存的需求。产品进行了适配和优化，在代码任务、文档生成任务等方面表现均有提升。

近日，AI领域出现一则重大消息，一款国产模型-V4，伴随着1M超长上下文，正式实现上线，并且进行了开源操作。这一举动所蕴含的意义在于，它能够一下子记住整部《三体》三部曲所涵盖的内容量，凭借此项能力，在智能体以及推理任务方面，直接跃升至国内以及开源领域的领先位置。

上下文长度突破百万大关

拥有1M上下文是怎样的概念呢，简而言之就是能够同时对100万个token进行处理。微信聊天记录若按照每条50字来计算，它能够一次性将2万条对话完整读完，并且不会丢失任何信息。在4月24日的时候，官方对外宣布，自当下起，1M长上下文将会成为所有服务共同具备的标准化配置。

有一种全新的注意力机制被V4采用了，在token维度进行压缩处理。结合DSA稀疏注意力技术，对显卡显存和计算资源的需求相比传统方法大幅降低了。这说明普通开发者也能够用得起这个级别的模型了。

V4此次开源了两个版本，其一为V4 - Pro，其二是V4 - Flash。适合对输出质量要求高的场景的Pro版本，诸如处理复杂的企业文档或者长篇技术报告这类情况。更轻快的Flash版本，适宜于日常对话以及快速响应的场景。

支持非思考模式与思考模式的有两个版本，其最大上下文均达到了1M。于思考模式里，能够通过参数设置思考强度，此强度分为high档和max档。假设要用在复杂的智能体场景中，官方给出的建议是开启思考模式并将强度调至最高。

在开发者看来，此次更新颇为径直，API服务已然同步上线，只需将模型名称改换为-v4-pro或者-v4-flash便能够进行调用，旧有的那两个模型名-chat以及-仍可继续使用三个月，直至2026年7月24日才会停止服务。

这段时期当中，旧的模型名称会各自指向v4-flash的并非思考的模式以及思考相关的模式，开发者具备充足的时间去开展迁移测试，这样一种平滑实现过渡的行为做法把实际生产环境的稳定性所需考虑在内，降低了忽然进行升级所带来的风险。

V4针对主流智能体产品做了专门适配，V4针对主流智能体产品进行了优化，其中包括Code、AppAgent等框架。V4在代码任务上表现有明显提升，V4在文档生成任务上也表现出明显提升。比如在某个智能体框架下，V4-Pro已经能够直接生成完整的PPT内页示例。

这样的优化使得智能体能够更为精准地领会用户意图，在执行多步骤任务之际也可更加稳定。对于那些需要处理海量信息的自动化工作流而言，更长的上下文意味着能够一次性输入更多的背景材料，进而减少中间环节的信息丢失。

已经由官方同步放出了-V4的技术报告，以及开源链接，技术报告将新注意力机制的原理，还有DSA稀疏注意力的实现方式详细地进行了解释，而开源链接能让开发者以及研究者去下载模型权重作本地部署或者二次开发。

这种做法持续了开源生态的以往惯例，有益于技术社区的迅速迭代以及应用落实。对于存在数据安全需求的企业而言，本地设定版本给出了更多的掌控权。学术探究者同样能够依据这个模型开展更深层次的实验与改良。

于文档处理这个场景而言，1M上下文所代表的含义是能够一次性将整本技术手册亦或是长篇小说进行输入，在此情形下，模型能够依据全文的内容去回答相关问题。在代码开发的过程当中，可以把整个项目的代码库一次性输入进去，籍此让模型在理解全局架构之后给出相应的修改建议。

登录官网，或者登录官方App，从4月24日开始，用户便能直接体验此能力。能够在简单问答与高难度推理任务之间随性切换，这是配合思考模式强度调节达成的。针对那些需处理大量历史记录的应用场景，此记忆长度切实达成了实用化。

对于1M的超长上下文，你认为在什么样的具体工作场景里最能够对你起到帮助作用，欢迎在评论区域分享你自身的想法，同时也千万不要忘记进行点赞以及转发，从而使更多的朋友能够知晓这个新的进展情况。