近期,研究人员成功研发出一款名为DiffSensei的创新人工智能系统,该系统能够自动将书面故事转化为漫画风格。DiffSensei不仅确保角色外观的一致性,还能控制漫画页面的布局,揭示了AI在漫画创作领域的巨大潜力。

DiffSensei项目由北京大学、上海人工智能实验室和南洋理工大学共同研发,融合了扩散模型与大型语言模型,旨在处理漫画创作中的视觉和叙事元素。研究团队为展示DiffSensei的功能,创作了一部虚构漫画,讲述了人工智能领域的先驱者杰弗里·辛顿、扬·勒昆和约书亚·本吉奥的故事。漫画中描述了这三位科学家如何开发超越Transformer架构的人工智能模型,并最终获得诺贝尔奖。

QQ20250103-093559.png

Image: Wu et al.

DiffSensei-Example-2-770x244.jpg

Image: Wu et al.

DiffSensei的工作原理

DiffSensei利用多模态模型和LoRA技术,确保漫画中角色在每个面板上保持一致的外观。系统通过三步实现漫画创作:首先生成页面布局,接着绘制角色,最后添加对话文本。

为了训练DiffSensei,研究人员构建了一个名为MangaZero的数据集。该数据集包含来自48个不同漫画系列的43,000多页漫画和427,000个单独面板,每个面板都进行了详细标注,记录了角色位置和对话位置,这对于系统的顺利运行至关重要。

DiffSensei-method-770x421.jpg

Image: Wu et al.

未来的潜力与挑战

尽管DiffSensei展现了巨大的潜力,但该系统仍面临一些挑战。目前,当角色的参考图像不够清晰时,系统可能会出现错误,有时相似人物会被误融合。此外,如果没有明确的角色参考,生成的艺术作品可能显得平淡,无法完美呈现特定漫画风格。

研究人员相信,DiffSensei在未来将极大地简化漫画制作过程。这项技术为艺术家、出版商和创作者提供了一个新的工具,使他们能够轻松制作个性化的漫画,同时保持对角色和页面布局的精确控制。