条此类深度注释,并将“修改前”与“修改后”的对比数据输入到一个奖励模型中。实验数据显示,基于“草图反馈”训练的模型表现最为优异。研究团队表示,这证明了“少而精”的专家级反馈能让小参数模型在特定领域展现出超越大模型的潜力。研究还揭示了一个关键现象:设计审美具有高度主观性。辅助设计工具进化的核心方向。
苹果有一项针对利用AI去优化App界面开发的研究,此研究引起了业界的关注,其核心发现是,经由精心设计的专业设计师反馈,可使一个较小的模型在特定任务方面超越诸如GPT-5这般的顶级大模型,这不但关乎技术竞争,还揭示了未来人机合作的一种高效新式样。
当下占据主流地位的AI训练方式依靠“人类反馈强化学习”,也就是人类针对AI给出的结果作出单纯的“好”或者“坏”的评判,这种方式在诸多领域具备成效,然而于UI设计方面却碰到了阻碍,原因在于它没办法传达复杂的修改意向以及审美判定。
单纯的点赞或者点踩,仅仅能够告知AI结果不符合心意,然而却没办法明确指出具体的问题究竟在哪里,甚至更是没有办法给出确切的改进方向。设计的优劣常常牵涉到布局、色彩、交互逻辑等等多个维度的考量,二元评价体系把这些关键信息遗失掉了,致使AI的学习效率变得很低,很难生成着实符合专业需求的界面。
对于要突破上述局限,苹果研究团队采用了一种全新方法,他们招募了21位经验丰富的专业设计师,这些设计师背景覆盖移动应用、网页等多个设计领域,经验从2 年到30年范围不等,以此确保反馈的专业性与多样性。
研究的关键之处在于,对反馈的形式作出了改变,从前设计师只是单纯打分,现在却被要求,要如同在实际工作当中那样,借助撰写详尽的评论,手绘修改的草图,甚至直接去编辑生成的界面代码,以此来给出反馈,采用这种深度参与的方式,所想要达成的目的是,去捕捉设计师思考以及改进设计的完整过程。
于整个研究进程里,团队总共搜集了1460条这般的“深度注释”,每一条注释都涵盖了AI生成的起始界面,以及设计师的修改看法(文本或者草图),还有最终优化好的界面,这形成了一个珍贵的“修改前后”对照数据集合。

研究团队借助这些数据,训练出了一个专项的“奖励模型”。此模型并非直接去生成界面,而是致力于学习怎样如同人类设计师那般去评估UI。它经过剖析界面截图以及与之对应的自然语言描述,进而学会判定一个界面在美观度与功能性方面的好坏,以此为生成模型提供更为精准的指导信号。
显示实验数据,在所有反馈类型里,基于“设计师手绘草图”来训练的模型表现是最为突出的,这是一个关键发现,草图作为一种直观的视觉语言,能够最有效地传递空间布局,能够最有效地传递元素关系,能够最有效地传递修改意图。
令人感到惊讶的是,仅仅只是使用了181个草图注释,对Qwen3 - Coder模型展开微调之后,它在UI生成任务方面的表现,就已然超越了参数规模大出许多的GPT - 5。这非常有力有力地证明了下述内容,即在专业领域当中,具备高质量、高信息密度的专家反馈,比起海量但却粗糙的普通数据,其价值要远远大得多,甚至能够让较小的模型实现“弯道超车”。

该研究深入地探讨了设计审美的共识这一问题 ,在仅仅要求针对设计结果予以排序的测试里 ,普通研究人员跟专业设计师的意见一致性仅仅为49.2% ,几乎是和随机猜测不存在区别的 ,这突出显示了设计评价具有的强主观性。
可是,在设计师借助绘制草图或者直接进行编辑以此来表达“为何要这样改”以后,双方的一致性明显提升了,分别达到了63.6%以及76.1%。这表明,具体的、呈现为可视化的修改活动(Show),相较于抽象的、只是口头表述的评价(Tell),更能够使得有着不同背景的人明白什么才是“更好的设计”,从而为构建评估标准提供了全新的思路。
这项研究得出的成果预先显示了App开发流程存在的潜在变革状况,在不太远的将来,AI设计助手或许不会再是那种需要进行反复提示,还要不断去尝试错误的类似“黑箱”的存在方式,反而是更接近于那种像是能够理解草图所蕴含意图,并且还可洞察修改背后逻辑的智能协作协助者。
对于开发者以及设计团队来讲,这表明原型设计跟迭代的速度或许会大幅提高。设计师能够把更多精力聚焦于创意构思还有高层决策方面,而把一些具有重复性的布局调整、组件生成工作交付给能够理解其意图的AI,达成人机效能的最大化。
此项研究呈现出了“少而精”的专家反馈怎样为AI赋予能量,您觉得这种依靠深度专业反馈的模式,往后最先会于哪个行业或者设计范畴(像工业设计、游戏UI、建筑草图)广泛传播开来呢?欢迎在评论区讲述你的见解,要是觉得这篇文章富有启发性,也请点赞予以支持。