谷歌GeminiOmni发布：用声音操控视频编辑AI技术再创新高！-PA视讯集团有限公司

谷歌GeminiOmni发布：用声音操控视频编辑AI技术再创新高！(图1)

　　在2026年的Google I/O大会上，谷歌正式推出了其最新的AI模型——Gemini Omni。这一创新的跨模态生成与编辑工具，不仅支持文本、图像、音频和视频作为输入，还为用户提供了前所未有的深度视频编辑能力。通过简单的语音指令，用户可以轻松地对生成的内容进行迭代修改，添加或删除对象，切换摄像机角度，甚至调整环境与风格，所有这些都在物理规律与文化知识的支撑下，确保生成视频在角色、场景及视觉逻辑上的高度连贯性。

　　Gemini Omni的首个产品Gemini Omni Flash已经在Gemini应用中上线，后续还将向企业客户开放API。谷歌的这一举措，标志着AI技术的又一次重大突破，尤其是在视频编辑领域的应用，将会极大地提升用户的创作效率和内容质量。用户不仅能够创建个人的数字分身，并将其植入视频中，还能利用这一技术轻松制作出专业水平的视频内容。

　　在音频方面，虽然目前Gemini Omni初期仅支持语音输入，但谷歌承诺将很快扩展更多音频输入能力，未来用户将能通过多种音频形式与AI互动。这样的发展无疑将拓宽AI在创作领域的应用边界，给内容创作者带来更多的可能性。

　　值得一提的是，谷歌在安全领域也同步布局，所有通过Gemini Omni生成的视频都将自动嵌入SynthID数字水印。这一水印不仅能确保视频内容的真实性，还支持用户通过Google搜索和Chrome浏览器进行验证，增强了内容的可信度和安全性。

　　谷歌DeepMind的负责人哈萨比斯在发布会上表示，Gemini Omni的推出，标志着AI技术正在从单纯的任务执行向通用人工智能（AGI）迈进。这一理念的实现，将使得AI不仅能完成特定任务，还能在更广泛的领域内进行自我学习与适应，推动整个科技行业的进步。

　　Gemini Omni Flash现已向拥有Google AI Plus/Pro/Ultra订阅的用户开放，并且还免费向希望进行混剪的YouTube Shorts用户及YouTube Create应用用户推出。这一开放政策不仅能促进更多用户体验这一前沿技术，还能进一步推动内容创作的多样性和丰富性。

　　总的来说，谷歌Gemini Omni的发布不仅展示了AI技术在视频创作领域的强大潜力，还为内容创作者提供了更为便捷和高效的工具。随着AI技术的不断发展，我们有理由相信，未来的创作将更加智能化、个性化，甚至能够在某种程度上实现人机协作的完美结合。无论是专业的影视制作人，还是普通的内容创作者，Gemini Omni都将为他们的创作之路带来全新的可能性。返回搜狐，查看更多

PA视讯（集团）-官方网站