AI资讯

开源地址揭秘!扩散生成三层次:听懂要求到符合可部署标准

智能摘要

这三种关系分别对应扩散生成从「听懂要求」,到「维持状态」,再到「符合可部署标准」的三个层次。一致性写入生成流程的不同位置优化扩散模型生成一致性的几个位置现有方法虽然数量庞大,但大体可以放进一条扩散生成流水线中理解。关心的是文本、布局、姿态、深度和参考图如何被编码,以及这些信号如何进入扩散模型。

外部一致性:条件没被漏掉,但结果却对不上

比如说, “一只黑猫趴在红色沙发上”这样一段你给模型写的描述, 结果生成的图片里, 原本在描述中的猫成了白色, 沙发变成了蓝色, 这情形就是典型的外部一致性失败。在2023年, 针对Stable Diffusion进行的一系列测试显示, 在那些包含四个以上属性绑定的文本输入当中, 模型出错率超过了40%。问题并非在于模型不理解“猫”和“沙发”这两个概念这个方面, 而是在于它没能达成把文本里的对象、属性以及空间关系精准对应到视觉像素之上这件事。

图像编辑场景将这种困境进一步暴露出来, 你提了把图中人物换成短发的要求, 模型虽说确实把头发弄短了, 可与此同时竟然把背景的墙纸都给换了, 且还把一个金属杯子变成了玻璃杯, 外部一致性于此处多了一层特殊要求哩, 这般要求便是模型不但要去执行明确给出的指令, 而且还要严格保护那些没有被提及、本应保持不变的内容, 2024年开展的一项用户研究表明, 超过六成的编辑失败案例皆是源于模型对“不该动的东西”进行了无意的修改。

内部一致性:同一个世界,不能随意漂移

若你致使模型生成一个角色于正面、侧面、背面这三张各异视角的图片, 然而最终三张图里的该角色长相全然不同, 此情形便是内部一致性出现了问题。在2023年被提出的Zero – 1 – to – 3模型借助参考图以及相机参数来预测新视角, 使得同一物体于不同角度下维持几何与纹理的一致。另外一条技术路线像MVDream那样, 让多个视角在生成过程里共享中间表示状态, 规避了各自独立生成所引发的身份漂移。

在视频生成范畴之中, 这显得更为关键。一个有关长视频的系统, 有可能生成了这样的情景, 主角身着蓝色T恤衫身处厨房做着饭, 然而, 仅仅过了五秒, 在同一个场景里, 主角的衣服却忽地变为了红色。用户根本无法接纳这种不一致的状况, 究其原因, 是因为这对最基本的视觉连续性造成了破坏。内部一致性有着这样的要求, 即模型要记住自身以前生成过的状态, 不管视角、光线或者姿态出现了怎样的变化, 人物的身份、场景的结构以及物体的属性都务必维持稳定。

规范一致性:模型需要遵守的“潜规则”

存在一些要求, 用户并未明确地写出来, 然而在社会、安全、物理以及逻辑层面, 却被默认应当去遵守。比如说, 生成一张呈现“一个人在悬崖边跳起”的图片, 模型原本是不应该让人物悬在半空中, 进而违背重力的, 可是在2022年的早期模型, 却常常产出这种存在物理异常的情况。更为严重的例子是安全对齐问题, 模型有可能依照提示词非常准确地生成了“一个人被推下楼梯”的画面, 但是这类内容却违反了基本的安全规范。

表面上, 偏好优化与物理建模属于不同方向, 然而它们共享一个结构, 那就是模型需要同某种长期生效的标准保持一致。2024年发布的Several方法尝试把物理约束直接写入模型的目标函数, 使得生成结果能够自动满足动量守恒及遮挡关系等基础规律。规范一致性面临着这样的挑战, 即这些标准常常是隐式的、多维度的, 就是不同文化背景下的安全标准也不尽相同, 模型很难一次性学会所有“应该做的事”。

技术路径:约束可以加在生成的任何环节

不同位置于生成流程里会实现一致性, 一种方式是在训练阶段, 改变数据与目标函数, 像用Attend-and-Excite方法审查哪些文本概念被遗漏在注意力中, 进而直接调整模型参数, 另一种方式是在推理阶段予以干预, 比如通过Prompt-to-Prompt控制编辑过程里的注意力变化, 又或者用Layout Guidance借助空间目标修正中间特征, 这些方法无需重新训练模型。

这两种路线, 各自存在取舍, 训练阶段写入的方式, 相对更为彻底, 但成本高昂、灵活性欠佳, 模型一旦训练完成, 便很难适应新的约束。推理阶段的干预方法, 接入简便, 能够即插即用, 然而干预过强时, 容易致使视觉质量、多样性以及采样效率遭到降低。另外还有一条中间路线, 是借助多个样本的联合生成或者事后验证来维系一致性, 例如生成多个候选结果之后, 挑选出最契合条件的那一个, 这种方式主要针对已经产生的错误加以处理, 却无法从根本上扭转模型生成不一致内容的倾向。

评价困境:没有一个指标能搞定所有一致性

一致性研究里, 存在一个常见的误区, 那就是试图去找出一个能够概括全部能力的总分。事实上, FID、IS 等这类指标, 主要是用来衡量整体视觉质量以及多样性的, 而 CLIP Score 仅仅只能粗略地考察文本与图像之间的语义相关性, 对于属性绑定、数量错误、空间关系混乱等这类细致的问题, 几乎是没有什么能力去解决的。在 2023 年被提出的 TIFA 基准, 专门用于测试文本到图像的细粒度一致性, 然而它依旧只能覆盖一部分关系。

因此, 一致性评价并非寻觅一个放之四海而皆准的指标, 而是构建一个涵盖不同关系的评价组合。一个值得信赖的生成系统不应仅仅汇报“整体表现更为出色”, 而应当阐明它在哪些约束条件上实现了提升, 又在哪些能力方面付出了相应代价。举例而言, 有一个模型或许在空间布局一致性方面提高了20%, 然而其代价却是人物身份的稳定性降低了15%。倘若不存在这种分维度的评价, 用户根本无从判定模型究竟是否契合自身的具体任务。

未来方向:从强化单一约束到处理冲突

一致性真正棘手的环节, 并非是使某项单一指标达到最值, 而是当多个目标一同呈现时, 去处理它们彼此间的关联。设想一种情形: 用户提出要求“把主角转变为女性, 然而要维持同一人物身份”。在此处, 性别转变与身份保持存在直接冲突, 模型得判定哪项约束的优先级更为突出。对于长视频、世界模型以及具身智能而言, 仅仅生成连续像素是不够的, 模型尚有必要维护对象、状态、动作、物理关系以及因果演化。

于过去的几年当中, 视觉生成的主要目标在于使模型生成出越发真实、越发清晰以及越发美观的内容。然而下一个阶段的关键问题此刻正从“能不能生成”朝着“能不能持续维护正确的关系”转变。模型得去识别冲突、表示优先级、保留长期状态, 还要在不同任务以及用户需求下开展可解释的权衡。倘若讲往昔的生成模型重点在于研习“如何造就一幅貌似合理的画面”, 那么往后的生成系统还得深入去学: 什么得恒常不变, 什么能够被改动, 哪些状态要长久记得, 以及一回生成举动会给后续世界带来啥影响呢。

对你而言, 当下是于何种场景之中运用产生模型? 是会觉着它老是胡乱增添内容, 还是人物身份老是变来换去从而使你感到烦恼? 热衷于在评论区域分享你的失败经历, 通过点赞以及转发让更众多的同行瞧见这些关键问题。

相关文章