OpenAI的Sora迎来劲敌Meta推出媒体基础模型Movie Gen
OpenAI的Sora迎来劲敌,Meta推出号称最先进的媒体基础模型Movie Gen。Meta表示,Movie Gen是公司“针对媒体的突破性生成式AI研究”,它囊括了图像丶视频和音频等模态,用户只需输入文本,就可以制作自定义的视频和声音丶编辑现有视频,以及将个人图像转换为独特的视频。Movie Gen执行这些任务的表现在人类评估中由于业内类似模型。Meta介绍,Movie Gen是“最先进丶沉浸式效果最佳的故事讲述模型套件”,综合了公司第一波生成式AI媒体研究的Make-A-Scene 系列模型,即可创建图像丶音频丶视频和 3D 动画的模型,以及随着扩散模型出现而针对Llama Image 基础模型进行的第二波研究模型,即可实现更高质量图像和视频生成以及图像编辑的模型。
Meta概括,Movie Gen 具有四种功能:视频生成丶个性化视频生成丶精确视频编辑丶音频生成。对于视频生成,Meta介绍,用户只要提供一个文本的提示词,Movie Gen就可以利用针对文本转图像和文本转视频进行了优化的联合模型,创建高清的高质量图像和视频。Movie Gen的视频模型有300亿参数,这个转换模型能以每秒16帧的速度生成最长16秒的视频。Meta称,发现这些模型可以推理物体的运动丶拍摄主体与物体之间的相互作用,以及相机的运动,并且可以学习各种概念了解有哪些合理的运动,因此,它们成为同类中最先进的模型。在介绍该功能时,Meta展示了多个10秒长度的视频短片,包括一只像萌翻网络的弹跳猪“Moo Deng”那样的小河马游来游去。
单从生成视频的最大长度看 Movie Gen仍不敌Sora
根据报道,单从生成视频的最大长度看,Movie Gen还不敌2024年2月OpenAI发布的Sora。Sora令业界震撼的一点是,可以创建长达60秒的文生视频。不过,相比Meta去年11月官宣的视频模型Emu Video,Movie Gen确实进步不小。Emu Video只能以每秒16帧的速度生成最长4秒的视频。除了直接文生视频,Movie Gen还有出色的个性化视频制作能力。Meta介绍,其扩展了前述基础模型,支持生成个性化视频。用户可以提供某个人的图像,配合文本的提示词,让Move Gen生成的视频包含参考图像中的人物,以及符合文本提示的视觉细节。Meta称,在创建保留人类身份和动作的个性化视频方面,其模型取得了最先进的成果。
Meta展示的一个视频显示,用户可以提供一个女孩的照片,输入文字“一名身穿粉色马甲的女DJ播放唱片,她身旁有一只猎豹”,然后就生成了以照片中女孩形象的DJ打碟,以及一只猎豹陪伴。在精确视频编辑方面,Meta称,Movie Gen采用了同一基础模型的编辑变体模型,在用户输入视频和文本提示词后,精确执行任务,生成所需的输出。它将视频生成与高级图像编辑相结合,执行局部编辑,例如添加丶删除或替换元素,以及诸如背景或样式修改的全局更改。与需要专业技能或缺乏生成精确度的传统工具不同,Movie Gen 保留了原始内容,仅针对相关像素编辑。
Meta提供的示例之一是,用户输入,让企鹅穿上有英国女王维多利亚在位时期服饰风格的服装,Movie Gen生成的企鹅穿上了带蕾丝的红色女裙。对于音频生成,Meta称,训练了一个130亿参数的音频生成模型,该模型可以接受视频和可选的文本提示词,生成长达 45 秒的高质量高保真音频,包括环境音丶拟声音效(Foley)和乐器背景音乐,所有这些都与视频内容同步。此外,Meta引入了一种音频扩展技术,可以为任意长度的视频生成连贯的音频,在音频质量丶视频到音频对齐和文本到音频对齐方面总体上实现了最先进的性能。