2025-08-24 12:07来源:本站
本月早些时候,OpenAI加大了在视频生成领域的投入,将其最先进的文本到视频生成器模型Sora与Sora Turbo一起提供给ChatGPT Plus用户。现在,谷歌正准备推出其最先进的视频生成器,与之竞争。
谷歌表示,周一,谷歌推出了Veo 2,这是一款文本转视频生成器,与该公司之前的型号相比有了改进,包括对现实世界物理的更好理解,这有助于人工智能生产出更精细、更逼真的产品。
b谷歌表示,生成的视频可以达到4K分辨率,可以解决常见的视频生成挑战,包括多出手指等幻觉。在与其他领先的视频模型(包括Sora Turbo、killing v1.5和meta Movie Gen)进行评估时,Veo 2在整体性能和及时遵守方面被评为最佳。
Veo 2还能理解电影语言,比如特定的类型、镜头或角度。例如,如果用户说“浅景深”,Veo 2知道模糊主体的背景来产生效果。下面的视频是用一个镜头制作的,特别说,“用35mm镜头在柯达Portra 400胶卷上拍摄。”
该模型可供公众使用,可以在谷歌实验室的VideoFX中访问。提前进入候补名单表格要求提供基本信息,如年龄、姓名、居住地、相关工作以及你是如何听说的。b谷歌表示,提交的文件是滚动审查的。
谷歌还分享了它改进了imagen3图像生成模型,以生成“更亮、构图更好”的图像。据该公司称,改进后的模型可以生成更多样化的风格,并以更高的提示保真度、更丰富的细节和纹理输出图像。
这个版本的imagen3从今天开始在谷歌实验室通过ImageFX向公众推出,与VideoFX不同的是,它不需要等待列表。Imagen 3的上一个版本已经非常强大,在ZDNET的2024年综述中被评为最好的AI图像生成器。
最后,谷歌发布了Whisk,这是一个新的实验,也可以在实验室中使用。该工具允许用户创建图像-或输入自己的图像-并将其转换为毛绒玩具,别针或贴纸风格的新图像。它利用imagen3和Gemini,为您的图像创建详细的标题,并将其输入imagen3以创建最终产品。