利用任意视频与自己图片, AI 就可以让你成为视频中的主角
近年来,生成式人工智能在图像生成领域取得了重大进展,催生了多种应用。然而,视频生成在可控性、视频长度、细节丰富度等各方面仍面临相当大的挑战,阻碍了该技术的应用和普及。在这项工作中,一种可控视频生成框架,称为 MimicMotion应运而生。
MimicMotion是腾讯推出的高质量人类动作视频生成框架,利用置信度感知的姿态引导技术,生成高质量、时间平滑、细节丰富的人体运动视频的模型框架。该框架通过区域损失放大和渐进式潜在融合策略,实现了任意长度视频的高效生成,并对视频内容进行精确控制,包括动作、姿势和视频风格等,适用于多种应用场景。

类似阿里的通义舞王,但效果看起来比阿里通义舞王好很多,MimicMotion支持面部特征和唇形同步,不止可以搞跳舞视频,也可以做数字人。

与以前的方法相比,此方法有几个亮点。
首先,通过置信感知姿势指导,可以实现时间平滑性,从而可以通过大规模训练数据增强模型的鲁棒性。
其次,基于姿态置信度的区域损失显著减轻了图像的失真。
最后,为了生成流畅的长视频,提出了一种渐进式潜在融合策略。通过这种方式,可以生成任意长度的视频。

通过大量的实验和用户研究,MimicMotion 在多个方面比以前的方法有了显著的改进。

MimicMotion不仅可以模仿视频动作,还可以模仿人类面部表情。MimicMotion 将图像到视频的扩散模型与新颖的置信感知姿势引导相结合。该模型的可训练组件包括时空 U-Net模型 和 PoseNet姿态模型,用于引入姿势序列作为输入条件。

置信感知姿势引导的主要特点包括:
1) 姿势序列附有关键点置信度分数,使模型能够根据分数自适应地调整姿势引导的影响。
2) 置信度高的区域在损失函数中被赋予更大的权重,从而放大它们在训练中的影响。
MimicMotion的主要功能特点
置信度感知的姿态引导:通过姿态置信度分数,自适应调整姿态引导的影响,确保视频帧的高质量和时间上的平滑过渡。
区域损失放大:基于姿态置信度放大高置信度区域的损失,减少图像失真,提升视频细节。
渐进式潜在融合:生成任意长度的视频,资源消耗可控,适用于长视频生成。
多样化视频生成:能够根据用户提供的姿态指导生成各种动作的视频内容,如舞蹈、运动或日常活动。
控制视频长度:用户可以指定视频的持续时间,从几秒的短片段到几分钟甚至更长的完整视频。

MimicMotion可以生成较高质量的手部姿势,很多文生图,文生视频的大模型,生成手部的视频或者图片都遇到了挑战,而MimicMotion可以生成较高质量的手部图片。
在相同的参考图像和姿势指导下,通过手部增强训练可以持续减少手部扭曲并增强手部渲染的效果。

自行感知姿势引导,这种设计增强了对错误引导姿势(姿势 1 和 2)的生成鲁棒性,并提供了可靠性提示来解决姿势模糊性(姿势 3)
渐进式潜在融合可实现平滑过渡并避免跨视频片段边界的突然变化,从而增强长视频生成的整体视觉时间连贯性。
MimicMotion是一个开源模型,可以直接在 GitHub 上面找到开源的代码与模型文件,当然也提供了在线使用。只需要上传自己的图片与一段视频,模型会自动识别视频中的对象,并进行姿态感知,并利用上传的图片进行新视频的渲染操作。
技术原理
MimicMotion结合了图像到视频扩散模型与新颖的基于信心的姿态指导。该模型的可训练组件包括时空U-Net和PoseNet,用于引入姿态序列作为条件。基于信心的姿态指导的关键特性包括:
1) 姿态序列伴随着关键点置信度分数,使模型能够根据分数动态调整姿态指导的影响。
2) 在损失函数中,对置信度高的区域给予更大的权重,在训练中放大它们的影响。
1、姿态引导的视频生成:利用用户提供的姿态序列作为输入条件,引导视频内容的生成。这样可以根据姿态的变化合成相应的动作。

2、置信度感知的姿态指导:通过分析姿态估计模型提供的置信度分数,对姿态序列中的每个关键点进行加权,以减少不准确姿态估计对生成结果的影响。

3、区域损失放大:针对手部等容易失真的区域,在损失函数中增加权重,提高生成视频的手部细节质量。

4、潜在扩散模型:使用潜在扩散模型提高生成效率和质量,减少计算成本。
5、渐进式潜在融合:生成长视频时,通过逐步融合重叠帧的潜在特征,实现视频段之间的平滑过渡。

6、预训练模型的利用:基于预训练的视频生成模型(如Stable Video Diffusion, SVD),减少训练所需的数据量和计算资源。
这些技术共同作用,使MimicMotion能够生成高质量、细节丰富且时间平滑的视频内容。
当然这里需要注意的是,上传的图片最好是全身图片,与视频中的视频对象最好一致,避免生产的视频有问题。
这些技术共同作用,使MimicMotion能够生成高质量、细节丰富且时间平滑的视频内容。
适用场景:
娱乐和媒体行业:生成细节丰富、平滑连贯的电影特效和动画人物动作视频。
游戏开发:制作真实感强、动作流畅的游戏角色动画。
虚拟现实(VR)和增强现实(AR):创建逼真的虚拟人物互动视频。
自动视频编辑:通过模仿现有视频中的动作,自动生成新的视频片段,适用于剪辑和合成。
特效制作:在影视特效制作中辅助设计师生成逼真的动作和特效,提高制作效率。
社交媒体内容创作:生成舞蹈短片或复杂的运动场景,适用于社交媒体平台。
体育训练和康复医疗:生成运动指导视频,辅助体育训练和康复。
当然官方提供了不仅在线使用demo,喜欢代码的同学可以使用 API 或者 Python 代码进行实现,具体操作可以参考官方教程。
pip install replicate
export REPLICATE_API_TOKEN=<paste-your-token-here>
import replicate
output = replicate.run(
"zsxkib/mimic-motion:b3edd455f68ec4ccf045da8732be7db837cb8832d1a2459ef057ddcd3ff87dea",
input={
"chunk_size": 16,
"resolution": 576,
"motion_video": "https://replicate.delivery/pbxt/LD5c2cJou7MsS6J7KMBDfywggKAFCfsc2GUAlo67w4Z8aN30/pose1_trimmed_fixed.mp4",
"sample_stride": 2,
"frames_overlap": 6,
"guidance_scale": 2,
"noise_strength": 0,
"denoising_steps": 25,
"appearance_image": "https://replicate.delivery/pbxt/LD5c2GQlXTIlL1i3ZbVcCybtLlmF4XoPoTnbpCmt38MqMQiS/demo1.jpg",
"checkpoint_version": "v1-1",
"output_frames_per_second": 15
}
)
print(output)
代码中的motion_video只需要上传自己的视频即可,而appearance_image需要替换成自己的图片,这样,模型会自动提取视频中的人物姿态,然后根据图片生成当前图片,当前场景下的动态视频。



发表评论 取消回复