LenVM技术方案详解：核心思想、关键性质及为何不直接预测原始token数

为什么不直接预测原始token数？区别于所有现有长度控制方法的核心优势，也是这项工作最值得关注的地方。监督信号完全由采样的completion自动生成，具备四个关键性质：作者团队通过三种推理阶段的应用来验证，所有应用均不修改基础生成模型。

大模型生成之际，长度出现乱跑现象，效率存在失衡状况，此等问题，始终令不少研发团队感到头疼不已，新近提出的LenVM思路，恰好能够针对性地解决这类痛点问题。

把剩余长度转化为可预测的值函数

固定负奖励分配规则

LenVM的核心逻辑是，把生成长度看作生成成本，给每个生成的token分配固定的负奖励，在每个非终止的解码步骤里，这套规则能够自然地引导模型关注剩余可生成的长度。

折扣因子γ取值范围处于0到1这个区间以内，它能够灵活地对不同生成阶段的预测分辨率予以调整，进而适配不同场景的长度控制需求。

回避直接回归原始长度

大模型生成长度有着极大的波动范围，它从几个token 一直覆盖到32k，若直接去回归原始token数，很难得以稳定又准确的结果。

能将跨度极大的原始长度予以映射的折扣回报变换，会把其映射到(-1, 0)的固定区间，并且与此同时保持数值严格单调，进而避免回归任务出现数值失衡的情况，使其不出现该问题。

免标注可扩展的价值预训练

突破传统价值模型的规模瓶颈

传统价值模型的规模上限，全然是由标注成本以及质量所决定的，极难达成大规模的扩展，人工标注出现的偏差，还会对最终模型效果产生影响。

就LenVM而言，其训练所指向的目标乃是token级别的均方误差，于单个接连序列的各个token所处位置，借助切实观测得到的折扣剩余长度来开展蒙特卡洛回归便可以达成。

三轴单调下降的良定义特性

这套方法的监督信号，完全是由采样过程自动生成的，不需要任何人工去进行标注，且能够不受限制地来接入更多的数据以及算力资源。

它的三个核心维度，全都呈现单调下降的态势，并不存在数据饱和的问题，投入的资源数量越多，模型的长度建模能力，便能够持续不断地获得提升。

三种推理阶段的落地应用

精准Token级长度硬控制

这套方案，无需对基础生成模型作修改，于解码阶段，能够针对候选token，逐个预测下一状态的数值，进而完成精准筛选。

在包含问答与摘要跟推理以及创意写作的中英文各一百八十条基准测试里，Qwen2.5 - 3B搭配规模为一点五B的LenVM，长度得分从二十五点六跃至六十二点六，远远超越多个主流闭源模型的表现。

性能与效率的连续平滑权衡

借助指数倾斜这种办法，LenVM能够针对基础模型的token分布去进行软性的重新加权，产生预期更为简短的token会得到更高的选择概率效果。

于GSM8K数据集的测试里，在token预算被设置成200之际，硬截断基线的Pass@1仅仅约为6%，然而LenVM引导解码的Pass@1却能达到63%，性能方面的差距可以达到十倍这么多。

全流程生成长度预估算

LenVM可以在首个token生成之前，预先测出全部序列总的生成长度，能直接为推理系统的进行批处理分组、KV缓存预分配等方面提供服务。

规模为32B的模型，在数学领域的平均相对误差，已经低到了9.8%，在代码领域是14.9%，于指令跟随领域也达到了17.1%，其误差表现，随着模型规模的上升，持续得到优化。

观测模型推理过程的新窗口

区分Token的收束与延长属性

LenVM所产生的，属于token级别的TD残差，给出了在此之前从来都未曾拥有过的观测维度，能够清楚地看见不同token对于剩余生成长度所造成的影响。

收束推理的token，多见为确认语句或者收尾标记，这些token，会迅速拉低剩余长度的预测值，进而引导生成过程，尽快完结。

突破现有长度控制方法的天花板

那时之前的长度控制办法，均仅仅能够达成粗粒度的序列级约束，而不能够于每一步解码之际，去传达动态的长度感知信号。

LenVM将控制的粒度推进至token的级别，使得模型针对剩余长度的感知，与对语义以及语法的感知维持在同频状态，从而完全摆脱粗粒度控制所具有的天然上限。

跨领域的衍生价值

拓展价值预训练的全新维度

基于长度生成的价值预训练，天然无需标注，信号密度足够，扩展规律同大语言模型的常规预训练极为契合。

这般一套思绪并不需要额外加以标注，仅仅凭借更多的计算资源以及数据，便能够持续不断地提升模型的长度建模能力，进而降低落地时的资源成本。

为后续RL训练提供专属基线

LenVM所获取到的长度价值信号，能够直接用作为PPO训练期间的密集优势信号，则是借助势函数奖励整形去优化信用分配效果。

这个特性，无需去改变原本任务的训练目标，便能够进一步去强化模型在生成进程之中的长度感知能力。

落地场景的适配思考

当前，LenVM于多个任务里验证了效果，这些任务涵盖通用生成、数学推理、代码生成等众多常见落地场景，众多团队已然开启尝试，把这套方案接入自身的推理管线内，优化生成效率以及输出质量。

你认为，这一套，token级别的，长度控制方案，首先会在，哪一个，大模型落地场景里，普及开来呢？