PA视讯(集团)-官方网站

谷歌GeminiOmni发布:用声音操控视频编辑AI技术再创新高!

发布时间:2026-05-26 06:40:34| 浏览次数:

  

谷歌GeminiOmni发布:用声音操控视频编辑AI技术再创新高!(图1)

  在2026年的Google I/O大会上,谷歌正式推出了其最新的AI模型——Gemini Omni。这一创新的跨模态生成与编辑工具,不仅支持文本、图像、音频和视频作为输入,还为用户提供了前所未有的深度视频编辑能力。通过简单的语音指令,用户可以轻松地对生成的内容进行迭代修改,添加或删除对象,切换摄像机角度,甚至调整环境与风格,所有这些都在物理规律与文化知识的支撑下,确保生成视频在角色、场景及视觉逻辑上的高度连贯性。

  Gemini Omni的首个产品Gemini Omni Flash已经在Gemini应用中上线,后续还将向企业客户开放API。谷歌的这一举措,标志着AI技术的又一次重大突破,尤其是在视频编辑领域的应用,将会极大地提升用户的创作效率和内容质量。用户不仅能够创建个人的数字分身,并将其植入视频中,还能利用这一技术轻松制作出专业水平的视频内容。

  在音频方面,虽然目前Gemini Omni初期仅支持语音输入,但谷歌承诺将很快扩展更多音频输入能力,未来用户将能通过多种音频形式与AI互动。这样的发展无疑将拓宽AI在创作领域的应用边界,给内容创作者带来更多的可能性。

  值得一提的是,谷歌在安全领域也同步布局,所有通过Gemini Omni生成的视频都将自动嵌入SynthID数字水印。这一水印不仅能确保视频内容的真实性,还支持用户通过Google搜索和Chrome浏览器进行验证,增强了内容的可信度和安全性。

  谷歌DeepMind的负责人哈萨比斯在发布会上表示,Gemini Omni的推出,标志着AI技术正在从单纯的任务执行向通用人工智能(AGI)迈进。这一理念的实现,将使得AI不仅能完成特定任务,还能在更广泛的领域内进行自我学习与适应,推动整个科技行业的进步。

  Gemini Omni Flash现已向拥有Google AI Plus/Pro/Ultra订阅的用户开放,并且还免费向希望进行混剪的YouTube Shorts用户及YouTube Create应用用户推出。这一开放政策不仅能促进更多用户体验这一前沿技术,还能进一步推动内容创作的多样性和丰富性。

  总的来说,谷歌Gemini Omni的发布不仅展示了AI技术在视频创作领域的强大潜力,还为内容创作者提供了更为便捷和高效的工具。随着AI技术的不断发展,我们有理由相信,未来的创作将更加智能化、个性化,甚至能够在某种程度上实现人机协作的完美结合。无论是专业的影视制作人,还是普通的内容创作者,Gemini Omni都将为他们的创作之路带来全新的可能性。返回搜狐,查看更多