自从OpenAI的视频生成工具Sora亮相以来,它便受到了广泛关注。然而,Sora的学习来源一直是个谜。最近,这个谜团似乎露出了一丝线索:Sora的训练数据可能包含大量Twitch平台的游戏直播和攻略视频。

Sora就像一个精通模仿的高手,仅凭文本提示或图像,就能轻松创造出长达20秒的视频,还能适应不同的宽高比和分辨率。今年2月,OpenAI首次展示Sora时,暗示了该模型在《我的世界》视频中进行了深入学习。那么,除了《我的世界》,Sora还掌握了哪些游戏的精髓呢?

结果显示,Sora对各种游戏类型都颇为熟悉。它能够生成带有“马里奥”风格的克隆游戏视频,尽管存在一些小瑕疵;也能模拟激动人心的第一人称射击游戏画面,仿佛《使命召唤》与《反恐精英》的结合;甚至能重现90年代《忍者神龟》街机游戏的战斗场景,让人仿佛回到了童年。

image.png

更令人惊讶的是,Sora对Twitch直播的形式也了如指掌,这表明它可能“观看”了大量直播内容。Sora生成的视频截图不仅精确捕捉了直播的框架,甚至连知名主播Auronplay的形象,包括他左臂上的纹身,都逼真地还原了出来。

image.png

不仅如此,Sora还能“认识”另一位Twitch主播Pokimane,并生成与她相似的角色视频。为了规避版权问题,OpenAI设立了过滤机制,防止Sora生成包含商标角色的视频。

尽管OpenAI对训练数据的来源保持沉默,但种种迹象表明,游戏内容很可能已经纳入了Sora的训练集。OpenAI前CTO米拉·穆拉蒂在今年3月接受《华尔街日报》采访时,并未否认Sora使用了YouTube、Instagram和Facebook上的内容进行训练。在Sora的技术规范中,OpenAI也承认使用了“公开可用”的数据以及来自Shutterstock等媒体库的授权数据。

image.png

如果游戏内容真的被用于Sora的训练,可能会引发一系列法律问题,尤其是当OpenAI基于Sora开发更具互动性的体验时。Pryor Cashman知识产权律师约书亚·韦根斯伯格指出,未经授权使用游戏视频训练AI,将面临巨大风险,因为训练AI模型通常需要复制训练数据,而游戏视频中包含大量受版权保护的内容。

像Sora这样的生成式AI模型是基于概率的。它们通过大量数据学习模式,进行预测。这种能力使它们能够“学习”世界的运作方式。但这也存在风险,在特定提示下,模型可能会生成与训练数据极为相似的内容,这引发了创作者的强烈不满,他们认为自己的作品未经允许就被用于训练。

目前,微软和OpenAI因其AI工具涉嫌复制许可代码而遭到起诉。Midjourney、Runway和Stability AI等AI艺术应用公司也面临着侵犯艺术家权利的指控。多家音乐公司也对开发AI歌曲生成器的初创公司Udio和Suno提起了诉讼。

许多AI公司长期以来主张“合理使用”原则,认为它们的模型创造的是“转换性”作品,而非抄袭。但游戏内容有其特殊性。Dorsey & Whitney律师事务所的版权律师埃文·埃弗里斯特指出,游戏视频至少涉及两层版权保护:游戏开发者拥有的游戏内容版权,以及玩家或视频制作者创作的独特视频版权。对于一些游戏,还可能存在第三层权利,即用户生成的内容版权。

<