近日,谷歌实验室在美国推出了新型生成式人工智能实验工具——Whisk。与传统依赖文本提示的图像生成工具不同,Whisk 强调以图像为输入方式,让用户更直观地创作艺术作品。
用户既可以直接上传图片到 Whisk,也可以在工具内生成图片,并设定主题、场景和风格等元素。Whisk 系统支持用户对这些组件进行混合和匹配,同时可使用附加的文本提示进行精细调整。
值得关注的是,在后台,谷歌的语言模型(可能是最近发布的 Gemini2.0Flash)会自动生成输入图像的详细描述。这些描述随后被输入到谷歌最新的图像生成模型 Imagen3 中,以捕捉主体的核心特征,而非简单地复制原作。
AIbase 进行了多次测试,发现上传左侧的三张图片后,可以融合生成右侧的结果,效果颇佳,具有很高的可玩性。具体如下:
然而,由于 Whisk 只提取每个源图像的几个关键元素,谷歌提醒用户,生成的图像可能与预期有所差异。例如,图像在身高、体重、发型或肤色上可能与原图不同。
对此,谷歌表示,这些细节对项目的成功至关重要,因此允许用户查看和编辑影响图像生成过程的文本提示。
早期测试者,包括一些艺术家和创意专业人士,认为 Whisk 更像是一种新型创意工具,而非传统图像编辑器。谷歌希望该工具能帮助用户快速进行视觉创意构思,而非精确编辑,让用户在保存心仪作品前,能迅速生成和筛选多个选项。
经过初步测试,虽然使用 Whisk 的体验令人愉快,但每次生成新图像都需要等待几秒钟。这种延迟可能是由于大量用户涌入体验新工具造成的。
目前,Whisk 仅对美国用户开放,用户可以在 labs.google/whisk 免费尝试并分享反馈。其他国家用户暂时无法访问此工具。
Whisk 是谷歌实验室的一部分,这里是谷歌测试 AI 项目的试验场,包括 Gemini、Imagen 以及最新的视频模型 Veo2 等。虽然大多数项目仍处于实验阶段,但一些成功的项目,如最近发布的 AI 助手 NotebookLM,已转变为完整产品。
产品体验地址:https://top.aibase.com/tool/whisk
划重点:
🌟 谷歌推出 Whisk,首个以图像为主导的生成式 AI 工具。
🎨 用户可上传或生成图像,快速进行视觉设计而非精确编辑。
🚫 目前仅限美国用户试用,其他国家暂无法访问。
暂无评论