开源地址揭秘！扩散生成三层次：听懂要求到符合可部署标准

外部一致性：条件没被漏掉，但结果却对不上

比如说, “一只黑猫趴在红色沙发上”这样一段你给模型写的描述, 结果生成的图片里, 原本在描述中的猫成了白色, 沙发变成了蓝色, 这情形就是典型的外部一致性失败。在2023年, 针对Stable Diffusion进行的一系列测试显示, 在那些包含四个以上属性绑定的文本输入当中, 模型出错率超过了40%。问题并非在于模型不理解“猫”和“沙发”这两个概念这个方面, 而是在于它没能达成把文本里的对象、属性以及空间关系精准对应到视觉像素之上这件事。

图像编辑场景将这种困境进一步暴露出来, 你提了把图中人物换成短发的要求, 模型虽说确实把头发弄短了, 可与此同时竟然把背景的墙纸都给换了, 且还把一个金属杯子变成了玻璃杯, 外部一致性于此处多了一层特殊要求哩, 这般要求便是模型不但要去执行明确给出的指令, 而且还要严格保护那些没有被提及、本应保持不变的内容, 2024年开展的一项用户研究表明, 超过六成的编辑失败案例皆是源于模型对“不该动的东西”进行了无意的修改。

内部一致性：同一个世界，不能随意漂移

若你致使模型生成一个角色于正面、侧面、背面这三张各异视角的图片, 然而最终三张图里的该角色长相全然不同, 此情形便是内部一致性出现了问题。在2023年被提出的Zero – 1 – to – 3模型借助参考图以及相机参数来预测新视角, 使得同一物体于不同角度下维持几何与纹理的一致。另外一条技术路线像MVDream那样, 让多个视角在生成过程里共享中间表示状态, 规避了各自独立生成所引发的身份漂移。

在视频生成范畴之中, 这显得更为关键。一个有关长视频的系统, 有可能生成了这样的情景, 主角身着蓝色T恤衫身处厨房做着饭, 然而, 仅仅过了五秒, 在同一个场景里, 主角的衣服却忽地变为了红色。用户根本无法接纳这种不一致的状况, 究其原因, 是因为这对最基本的视觉连续性造成了破坏。内部一致性有着这样的要求, 即模型要记住自身以前生成过的状态, 不管视角、光线或者姿态出现了怎样的变化, 人物的身份、场景的结构以及物体的属性都务必维持稳定。

规范一致性：模型需要遵守的“潜规则”

存在一些要求, 用户并未明确地写出来, 然而在社会、安全、物理以及逻辑层面, 却被默认应当去遵守。比如说, 生成一张呈现“一个人在悬崖边跳起”的图片, 模型原本是不应该让人物悬在半空中, 进而违背重力的, 可是在2022年的早期模型, 却常常产出这种存在物理异常的情况。更为严重的例子是安全对齐问题, 模型有可能依照提示词非常准确地生成了“一个人被推下楼梯”的画面, 但是这类内容却违反了基本的安全规范。

表面上, 偏好优化与物理建模属于不同方向, 然而它们共享一个结构, 那就是模型需要同某种长期生效的标准保持一致。2024年发布的Several方法尝试把物理约束直接写入模型的目标函数, 使得生成结果能够自动满足动量守恒及遮挡关系等基础规律。规范一致性面临着这样的挑战, 即这些标准常常是隐式的、多维度的, 就是不同文化背景下的安全标准也不尽相同, 模型很难一次性学会所有“应该做的事”。

技术路径：约束可以加在生成的任何环节

不同位置于生成流程里会实现一致性, 一种方式是在训练阶段, 改变数据与目标函数, 像用Attend-and-Excite方法审查哪些文本概念被遗漏在注意力中, 进而直接调整模型参数, 另一种方式是在推理阶段予以干预, 比如通过Prompt-to-Prompt控制编辑过程里的注意力变化, 又或者用Layout Guidance借助空间目标修正中间特征, 这些方法无需重新训练模型。

这两种路线, 各自存在取舍, 训练阶段写入的方式, 相对更为彻底, 但成本高昂、灵活性欠佳, 模型一旦训练完成, 便很难适应新的约束。推理阶段的干预方法, 接入简便, 能够即插即用, 然而干预过强时, 容易致使视觉质量、多样性以及采样效率遭到降低。另外还有一条中间路线, 是借助多个样本的联合生成或者事后验证来维系一致性, 例如生成多个候选结果之后, 挑选出最契合条件的那一个, 这种方式主要针对已经产生的错误加以处理, 却无法从根本上扭转模型生成不一致内容的倾向。

评价困境：没有一个指标能搞定所有一致性

一致性研究里, 存在一个常见的误区, 那就是试图去找出一个能够概括全部能力的总分。事实上, FID、IS 等这类指标, 主要是用来衡量整体视觉质量以及多样性的, 而 CLIP Score 仅仅只能粗略地考察文本与图像之间的语义相关性, 对于属性绑定、数量错误、空间关系混乱等这类细致的问题, 几乎是没有什么能力去解决的。在 2023 年被提出的 TIFA 基准, 专门用于测试文本到图像的细粒度一致性, 然而它依旧只能覆盖一部分关系。

因此, 一致性评价并非寻觅一个放之四海而皆准的指标, 而是构建一个涵盖不同关系的评价组合。一个值得信赖的生成系统不应仅仅汇报“整体表现更为出色”, 而应当阐明它在哪些约束条件上实现了提升, 又在哪些能力方面付出了相应代价。举例而言, 有一个模型或许在空间布局一致性方面提高了20%, 然而其代价却是人物身份的稳定性降低了15%。倘若不存在这种分维度的评价, 用户根本无从判定模型究竟是否契合自身的具体任务。

未来方向：从强化单一约束到处理冲突

一致性真正棘手的环节, 并非是使某项单一指标达到最值, 而是当多个目标一同呈现时, 去处理它们彼此间的关联。设想一种情形: 用户提出要求“把主角转变为女性, 然而要维持同一人物身份”。在此处, 性别转变与身份保持存在直接冲突, 模型得判定哪项约束的优先级更为突出。对于长视频、世界模型以及具身智能而言, 仅仅生成连续像素是不够的, 模型尚有必要维护对象、状态、动作、物理关系以及因果演化。

于过去的几年当中, 视觉生成的主要目标在于使模型生成出越发真实、越发清晰以及越发美观的内容。然而下一个阶段的关键问题此刻正从“能不能生成”朝着“能不能持续维护正确的关系”转变。模型得去识别冲突、表示优先级、保留长期状态, 还要在不同任务以及用户需求下开展可解释的权衡。倘若讲往昔的生成模型重点在于研习“如何造就一幅貌似合理的画面”, 那么往后的生成系统还得深入去学: 什么得恒常不变, 什么能够被改动, 哪些状态要长久记得, 以及一回生成举动会给后续世界带来啥影响呢。

对你而言, 当下是于何种场景之中运用产生模型? 是会觉着它老是胡乱增添内容, 还是人物身份老是变来换去从而使你感到烦恼? 热衷于在评论区域分享你的失败经历, 通过点赞以及转发让更众多的同行瞧见这些关键问题。

外部一致性：条件没被漏掉，但结果却对不上

内部一致性：同一个世界，不能随意漂移

规范一致性：模型需要遵守的“潜规则”

技术路径：约束可以加在生成的任何环节

评价困境：没有一个指标能搞定所有一致性

未来方向：从强化单一约束到处理冲突

Claude Fable 5全球上线，中国Kimi K2.7唯一入围安全测试

巨量引擎新模型Mamoda 2.5，精准识别广告违规内容

Claude Code偷偷检测中国用户，147个中国域名被监控

企业收紧AI开支，六成已设管控，成本成核心顾虑