Phenaki是一个谷歌AI文本转视频(Text-to-Video)模型,可以通过简单的文本提示自动生成视频内容。主要利用文本中的时间变化来创造出不同的场景和动作,还可以从一张静止图像和一个提示生成相关的连续视频。

Phenaki的简介
Phenaki是Google Research的一个项目,其目标是从开放域的文本描述中合成逼真的视频。Phenaki这个名字可能来源于费纳奇镜(Phenakistiscope),一种19世纪发明的早期动画装置。
Phenaki的核心是两个主要组件:一个编码器-解码器模型,用于将视频压缩为离散的嵌入或令牌(token),以及一个变换器模型,用于将文本嵌入转换为视频令牌1。这样,用户只需输入一段或多段文本提示,就可以让Phenaki生成相应的视频令牌,并将其解码为实际的视频。
Phenaki的特点
1、Phenaki可以生成任意长度的视频,而不受固定帧数或分辨率的限制。
2、Phenaki可以根据时间变化的文本提示生成视频,例如一个故事。这与传统的基于静态图像或单一文本提示的视频生成方法不同。
3、Phenaki可以利用大量的图像-文本对数据和少量的视频-文本对数据进行联合训练,从而实现对视频数据集之外的内容的泛化。
4、Phenaki在空间-时间质量和每个视频的令牌数量方面都优于目前文献中使用的所有逐帧基线。
Phenaki的意义
1、为用户提供了一个简单而强大的工具,可以将他们的想法、故事或情感转化为影像,从而实现更加直观和生动的表达和沟通。
2、也为视频创作和编辑提供了一个新的可能,可以让用户更加轻松和快速地生成自己想要的视频内容。