IC-Light创新照明编辑模型在ICLR2025获满分评价,AI绘图新突破

四个 10 分!罕见的评价出现了,但在平均分只有 4.76 的 ICLR 上,能获得这样的评分无疑是相当轰动的。

这篇征服了所有审稿人的论文,正是 ControlNet 的作者张吕敏推出的最新作品 IC-Light。我们很少能看到一篇论文,能够让四位审稿人一致给予满分评价,“评分:10,强烈接收,应该在会议上重点展示”。

早在向 ICLR 投稿之前,IC-Light 就已经在 Github 上开源了半年,收获了 5.8k 的星标,足见其效果的出色。

最初版本基于 SD 1.5 和 SDXL 实现,而就在前几天,团队发布了 V2 版本,新增了对 Flux 的适配,效果进一步提升。

有兴趣的朋友们可以直接尝试。

  • Github 项目:https://github.com/lllyasviel/IC-Light?tab=readme-ov-file
  • V2 版本:https://github.com/lllyasviel/IC-Light/discussions/98
  • 试玩链接:https://huggingface.co/spaces/lllyasviel/IC-Light

IC-Light 是基于扩散模型的照明编辑工具,可以通过文本精准控制图像中的光照效果。

换句话说,以前需要在 Photoshop 中打开蒙版、调整 alpha 通道,进行明暗分离才能实现的光影效果,使用 IC-Light 后,就成了简单的操作。

只需输入提示词,比如让光线从窗户射入,你就能看到阳光透过雨后的窗户,柔和的轮廓光洒在人物侧脸上。

IC-Light 不仅准确地还原了光线的方向,还完美地呈现了光线透过玻璃时的漫射效果。

对于霓虹灯等人工光源,IC-Light 同样表现出色。

根据提示词,原本的教室场景立刻变成赛博朋克风格:红蓝霓虹灯的光打在人物身上,营造出深夜都市特有的科技感和未来感。

模型不仅准确还原了霓虹灯的色彩渗透效果,还保证了人物的一致性。

IC-Light 还支持上传背景图片,从而改变原图的光照。

说到 ControlNet,它是解决了 AI 绘画界一个老大难问题的技术,大家应该不陌生。

Github 项目:https://github.com/lllyasviel/ControlNet

之前,Stable Diffusion(SD)最让人头疼的问题就是无法精确控制图像细节。不论是构图、动作、面部特征还是空间关系,即使提示词写得再详细,SD 生成的结果也往往有着 AI 特有的思路。

ControlNet 的出现,就像是给 SD 安装了“方向盘”,使得许多商业化工作流得以催生。

它在学术领域同样取得了巨大成功,ControlNet 在 ICCV 2023 获得了马尔奖(最佳论文奖)。

虽然许多业内人士认为,随着竞争的激烈,图片生成领域的突破变得越来越难,但张吕敏似乎总能开辟新路,每一次的创新都精准地满足用户的需求,这次也不例外。

在现实世界中,光照和物体的材质密切相关。比如,我们看到一个物体时,很难区分到底是光线还是物体表面的材质在决定其外观。因此,当让 AI 编辑光线时,往往会很难避免改变物体本身的材质。

过去的研究曾尝试通过构建特定的数据集来解决这个问题,但效果并不显著。而 IC-Light 的作者发现,结合 AI 合成生成的数据与一些人工处理,可以取得较好的效果。这个发现为整个研究领域带来了启示。

当 ICLR 2025 公布时,IC-Light 以“10-10-8-8”的评分稳坐最高分论文宝座,审稿人也纷纷称赞:

“这是一篇精彩论文的典范!”

“我认为所提出的方法及其衍生工具将立即对许多用户产生重要影响!”

在审稿结束后,添加了一些参考文献和实验数据后,原先给出 8 分的两位审稿人也将评分调整为满分。

接下来,我们一起来深入了解这篇满分论文的具体内容。

研究细节

  • 论文标题:Scaling In-the-Wild Training for Diffusion-based Illumination Harmonization and Editing by Imposing Consistent Light Transport
  • 论文链接:https://openreview.net/pdf?id=u1cQYxRI1H

在这篇论文中,研究者基于光传输独立性的物理原理,提出了一种在训练过程中强加一致光(IC-Light)传输的方法。该物理原理是:不同光照条件下物体外观的线性混合和混合光照下的外观一致。

如图 2 所示,研究者利用多种可用数据源对照明效果的分布进行建模:任意图像、3D 数据和灯光舞台图像。这些分布能够捕捉现实世界中各种复杂的照明场景,例如背光、边缘光、辉光等。为了简化,这些数据被统一处理为通用格式。

然而,学习大规模且复杂、嘈杂的数据是一项挑战。如果没有合适的正则化和约束,模型很容易出现与预期光照编辑不符的行为。为了解决这一问题,研究者提出了在训练过程中施加一致光(IC-Light)传输的方案。

通过施加一致性,研究者引入了基于物理的强约束条件,确保模型仅修改图像中的光照部分,同时保留反照率和图像细节等固有属性。这一方法能够在超过 1000 万个样本上进行稳定的扩展训练,其中包括来自真实光照舞台、渲染图像和带有合成光照增强的野外图像。该方法显著提高了光照编辑的精度,降低了不确定性,减少了伪影,同时保持了基本的外观细节。

总体而言,这篇论文的主要贡献如下:

(1) 提出了 IC-Light,通过强加一致光传输来扩展基于扩散的光照编辑模型训练的方法,确保在保留内在图像细节的同时进行精确的光照修改;
(2) 提供了预训练的光照编辑模型,以促进不同领域的内容创作和光照编辑应用;
(3) 通过大量实验验证了该方法的可扩展性和性能,展示了它在应对各种光照条件时的优势;
(4) 介绍了其他应用,例如法线贴图生成和艺术照明处理,进一步展示了该方法在现实世界中的多功能性和鲁棒性。

实验结果

在实验中,研究者证明了扩大训练规模和数据源多样化能够增强模型的鲁棒性,并提高与光照相关的各种下游任务的性能。

消融实验表明,在训练过程中应用 IC-Light 方法能提高光照编辑的准确性,从而保留反照率和图像细节等内在属性。

此外,研究者展示了该方法处理更多野外照明场景的能力,包括艺术照明和合成照明效果。同时,还探讨了生成法线贴图等应用,并与其他几何估计模型进行了对比。

消融实验

研究者首先恢复了训练中的模型,但删除了野外图像增强数据。如图 4 所示,移除这些数据会严重影响模型的泛化能力,特别是在处理复杂的肖像图像时。例如,在训练数据中未出现过的肖像中的帽子常常会显示为错误的颜色(如黄色变为黑色)。

研究者还尝试了移除光传输一致性,结果显示,模型在没有这一限制的情况下生成的图像缺乏一致的光照效果,导致色彩失真和饱和度问题。

完整的方法结合了多种数据源,并增强了光传输的一致性,生成了在多种情况下都能稳定表现的均衡模型,能够保留图像细节和固有属性,同时减少错误。

其他应用

如图 5 所示,研究者还展示了其他应用,例如基于背景条件进行光照协调。通过额外的背景通道训练,模型可以根据背景图像生成光照,而无需依赖环境映射。此外,模型还支持不同的基础模型,如 SD1.5、SDXL 和 Flux,并且在生成结果中有所体现。

定量评估

在定量评估中,研究者使用了峰值信噪比(PSNR)、结构相似性指数(SSIM)和学习感知图像补丁相似性(LPIPS)等指标。为了确保模型在训练过程中未见过这些样本,研究者从数据集中提取了 50000 个未见过的 3D 渲染数据子集进行评估。

视觉对比

研究者还进行了视觉对比。如图 6 所示,与 Relightful Harmonization 相比,由于训练数据集更为庞大且多样化,本文模型在阴影处理上更具鲁棒性。SwitchLight 与本文模型在重新照明方面产生了具有竞争力的结果,而该方法的法线贴图质量也更为细致。

更多研究细节,请参考原论文。

相关推荐

暂无评论

发表评论