长文本AI推理慢又贵？小红书开源RedKnot提速降本

最后更新时间：2026年6月30日 19:32 Zevo 90

智能摘要

在生成式人工智能的应用场景中，如何让模型在处理超长文本时既快又省，一直是工程师们攻克的难题。推理引擎，带来了一套针对长上下文任务的“降本增效”新方案。token（词元）维度存储的，这导致在处理长文本时，内存开销呈线性增长，极大地拖累了推理速度与并发能力。的开源为推理引擎的工程优化提供了重要参考。

长文本推理为何又慢又贵

大模型处理数万字合同、论文、或是聊天记录时, 每增添一个词元, KV Cache便会增大一点。传统途径按照词元维度缓存, 致使128K上下文情形下, 单卡仅能为个位数用户提供服务。2025年行业报告表明, 超长文本推理的算力成本占据总推理成本40%不止, 成为AI落地核心瓶颈。

头维度拆解打破线性魔咒

像是那种依照页码顺序排列的字典一样的传统KV Cache, 每次进行翻查的时候都得遍历整本书。小红书团队却与之相反, 把缓存依据注意力头拆分成独立的小册子。举例来说, 在1721024个字节的场景之下, 原本是需要存储二亿八千万多个缓存条目, 经过拆解之后每个注意力头仅仅需要管理四十万个条目, 内存占用从三十二吉字节急剧下降到六吉字节。

三大机制实现精准裁剪

头分类稀疏机制具备可预判哪些注意力头对于当前任务而言是没有用处的能力, 进而能够直接将它们的计算予以跳过不去执行。稀疏FFN会动态地把神经元进行关闭, 实际上经过测试发现在8卡H800集群的环境里, 预填充阶段所涉及的计算量相应得以降低也就是由1200T FLOPs下降到250T。这些技术所形成的组合使得单卡并发从2路径提升到15路径, 这就等同于使用一张卡去完成原本七张卡才能完成的工作。

实测数据远超行业预期

于 -V4 – Flash 模型 128K 上下文展开的测试里, 首字生成的用时, 由 3.2 秒给压缩到了 0.62 秒。KV 数据的传输量, 从 4.8GB 降低至 760MB, 带宽的占用减少了 84%。将其与谷歌在 2025 年发布的同类型方案做对比, 于相同精度状况下, 推理的速度方面领先达 2.3 倍, 内存的使用效率高出 5.7 倍。

开源生态加速技术扩散

代码仓库上线仅48小时, 便收获了2300星, 紧接着, 已有三家云计算厂商宣称要去跟进集成。某法律科技公司CTO有所透露, 在部署了该引擎之后, 处理100页合同的速度, 由45秒锐减至9秒, 并且服务器采购预算被直接削减了一半。当下, 已有7个开源项目依据此方案来开发长文档分析工具。

算力博弈下的技术分水岭

在英伟达H100价格依旧处于3.5万美元的高位之际 , 这种精细化架构直接致使单卡效能实现翻倍。有分析师经过测算得出 , 要是国内50%的长文本应用迁移至该方案 , 那么每年能够节省下等同于10座中型数据中心的算力消耗。这不但属于工程优化 , 更是AI普惠的关键跳板。

你对于这般借助拆解缓存从而实现降本的技术路线持有怎样的看法呢? 倘若部署成本下降百分之八十, 你的业务会在首个长文本场景当中进行应用吗? 欢迎于评论区把你的想法分享出来, 点赞收藏以便让更多同行能够看到这个突破。

ChatGPT全球用户暴增：非英语占一半，非洲亚洲增长最快

英伟达开源新模型，突破AI生成速度瓶颈

软银再投OpenAI 100亿美元，孙正义豪赌AI未来

AI编程工具Cursor推移动端应用，紧跟巨头拓展移动生态