google视频翻译(Google视频翻译插件)

如同最近一年DALL-E2、StableDiffusion等文本生成图像模型发展一样,用文本来生成视频的AI工具也正变得越来越多。继Meta的Make-A-Video之后,谷歌也接连发布了两款视频模型ImagenVideo和Phenaki。两者分别强调视频的质量和长度等不同功能。Meta日前,在人工智能活动上,谷歌首次发布了由ImagenVideo和Phenaki一同生成的视频。该视频结合了Ph

google视频翻译(Google视频翻译插件)

如同最近一年 DALL-E 2、Stable Diffusion 等文本生成图像模型发展一样,用文本来生成视频的 AI 工具也正变得越来越多。

继 Meta 的 Make-A-Video 之后,谷歌也接连发布了两款视频模型 Imagen Video 和 Phenaki。两者分别强调视频的质量和长度等不同功能。


Meta日前,在人工智能活动上,谷歌首次发布了由 Imagen Video 和 Phenaki 一同生成的视频。该视频结合了 Phenaki 生成长视频能力和 Imagen 的高分辨率细节。

“我认为使用一系列提示,创造这样的超分辨率长视频令人难以置信,这是一种讲故事的新方式,”谷歌研究中心首席科学家兼谷歌大脑团队研究总监道格拉斯·埃克(Douglas Eck)在活动中分享说,“很期待电影人或视频故事讲述者如何利用我们的技术。”

谷歌在官方博客中表示,Imagen Video 和 Phenaki 的结合是一项重要突破,它正在努力打造领先行业、能生成高质量影响的工具。AI 驱动的生成模型有着无限的创造力,可帮助人们借助视频、图像工具,以他们之前无法做到的方式充分表达自身想法。

再分别简单介绍下 Imagen Video 和 Phenaki。

据了解,Imagen Video 基于级联视频扩散模型来生成高清视频。如输入文本提示后,基本视频扩散模型和多个时间超分辨率(Temporal Super-Resolution,TSR)及空间超分辨率(Spatial Super-Resolution,SSR)模型,分别以 40×24 像素和 3 帧/秒速度生成 16 帧视频、以 1280×768 像素和 24 帧/秒的速度采样,最终得到 5.3 秒的高质量视频。

google视频翻译(Google视频翻译插件)

(来源:谷歌)

该模型还用到了 Video U-Net 架构,能够使其对长时间动态进行建模。时间自注意用于基本视频扩散模型,而时间卷积用于 TSR 和 SSR。

另外,它训练所用数据来自 LAION-400M 图像文本数据集和 1400 万个视频(包括对应的文本)、6000 万个图像(包括对应的文本)。

值得一提的是,Imagen Video 中的扩散模型都可单独训练。然后,该系统不仅能够生成高保真视频,而且还具有高度的可控性和对世界知识的理解力,从而能够使得生成的视频和文本动画具备各种艺术风格。

而 Phenaki 是一个能够在给定一系列文本提示的情况下,进行逼真视频合成的模型。谷歌对此用到了一种新的因果模型,其可将视频表征为小型离散令牌,这允许它处理可变长度的视频。用户还可以在其中叙述和动态更改场景。

为了从文本生成视频令牌,谷歌还使用双向屏蔽转换器。而为了解决训练数据较少问题,谷歌还通过在大型图像-文本对语料库和较少的视频-文本示例上进行联合训练,从而拓展视频数据集的可用范围。

相较其他视频生成模型,Phenaki 可通过一系列提示,在开放域中生成所有时间段的视频。谷歌在官网提到,这是首次以时间变量提示生成视频。此外,研究所提出的视频编码器-解码器在多方面都优于文献中目前使用的所有每帧基线。

Phenaki 可以将详细的文本提示转换为两分钟以上的视频,但缺点是视频质量较低。

google视频翻译(Google视频翻译插件)

图 | Phenaki 根据文本生成视频示例(来源:谷歌)

另外,在本次 AI 活动日上,谷歌还介绍了自家其他模型的一些进展,比如通过 LaMDA 对话模型来写实验小说(谷歌即将发表一篇该方面的论文),并提到了使用 AI 来生成代码,用 AudioLM 生成音频、将 Imagen 与 NeRF(神经辐射场,Neural Radiance Fields)的 3D 功能结合等等。


“生成领域在短时间内能有如此多进展,我是没有想到的。”埃克对外谈道。

不过,值得注意的是,目前生成式 AI 仍有一些问题需要处理。比如,Imagen Video 和 Phenaki 有被滥用的风险,生成虚假、仇恨、露骨等不良内容。谷歌目前也采取了输入文本提示过滤和输出视频内容过滤等措施来最大程度地减少这些问题。但对于一些社会偏见和刻板印象仍难进行检测和过滤,因此谷歌还未正式发布相关模型及源代码。

最后,谷歌在活动中还表示,其从一开始就对负责任的人工智能高度关注,将持续进行对抗性测试,并设定了一套定量基准,可以在AI的所有维度上进行测量和验证。

谷歌 CEO 桑达尔·皮查伊(Sundar Pichai)在与会视频中说:“我们致力于确保技术是为了帮助人们更好地生活。”他还指出了AI带来的风险和挑战,并表示,谷歌将优先考虑人们的安全和隐私,而不是其他任何事情。

参考资料:
https://blog.google/technology/ai/ways-ai-is-scaling-helpful/
https://imagen.research.google/video/
https://phenaki.video/
https://venturebeat.com/ai/google-announces-ai-advances-in-text-to-video-language-translation-more/
https://venturebeat.com/ai/google-ai-generator-takes-on-meta-as-text-to-video-trend-ramps-up/

google视频翻译(Google视频翻译插件)

由 DeepTech 携手《麻省理工科技评论》重磅推出的《科技之巅:全球突破性技术创新与未来趋势(20 周年珍藏版)》已开启预售!点击下方海报可购买图书!

google视频翻译(Google视频翻译插件)

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 1553299181@qq.com 举报,一经查实,本站将立刻删除。
如若转载,请注明出处:https://www.lmux.cn/19940.html