欧易数字货币Web3的直通车

新手必读、操作指南、进阶策略、行业热点尽在新手学院,精彩一站直达,轻松玩转数字货币。

进入欧易官网

谷歌发布Gemini Omni加码AI视频赛道

人工智能视频生成领域再度迎来重量级参与者。谷歌宣布推出Gemini Omni模型,该模型将主要用于视频生成与视频编辑能力建设。虽然目前公开信息尚未披露完整技术参数和具体功能细节,但在生成式人工智能竞争持续升温的背景下,这一动作仍然迅速引起行业关注。过去一年,AI技术竞争已经从文本和图像逐步向视频领域转移,而视频内容由于生成难度更高、计算需求更复杂,被视为下一阶段人工智能竞争的重要战场。谷歌此时推出新的视频模型,不仅意味着其继续强化Gemini生态体系,也显示出大型科技公司正在围绕多模态能力展开更深层布局。对于整个AI产业而言,这种变化的重要性不仅体现在技术更新速度上,更在于内容生产方式可能迎来新的调整。

进一步拆解此次事件,可以看到几个值得关注的层面。首先,Gemini Omni的核心定位并非单纯的视频生成工具,而是同时覆盖视频生成与视频编辑两个方向。两者看似接近,但在技术实现逻辑上存在明显差异。视频生成通常强调从文本、图片或者其他输入信息创建完整视频内容,而视频编辑则更强调在已有内容基础上进行修改、重构和优化,包括镜头变化、场景调整、人物动作修改以及内容延展等。对于用户而言,这意味着模型应用场景将不局限于“从零开始创作”,还可能覆盖后期制作流程。其次,Gemini Omni被纳入Gemini体系,也意味着谷歌正在进一步推进多模态能力整合。此前,生成式AI已经从文字理解发展到图像、音频以及代码处理,而视频能力的加入,有可能进一步强化不同数据形式之间的协同能力。第三点值得注意的是,视频模型的竞争门槛远高于文本模型。相比静态图像,视频不仅需要理解单帧画面,还需要处理连续时间维度上的运动关系、场景变化和逻辑一致性,这对于模型训练和算力支持提出更高要求。

如果进一步分析背后的原因,可以发现大型科技公司正在进入新一轮AI能力升级周期。过去一段时间,生成式AI主要围绕聊天机器人和文本助手展开竞争,但随着市场逐渐成熟,基础语言能力开始趋于同质化。一个明显变化是,企业竞争重点已经从“谁能理解文本”转向“谁能理解真实世界”。而视频恰恰是现实世界信息最丰富的数据形式之一,它同时包含图像、语言、动作、空间关系以及时间逻辑等多层信息。因此,具备高质量视频理解和生成能力的模型,被视为构建更强人工智能系统的重要基础。值得注意的是,这种能力不仅服务内容创作领域,也可能延伸至教育、影视、广告、游戏开发以及自动驾驶训练等多个方向。随着模型能力提升,未来AI可能不仅负责辅助创作,而是逐步参与整个内容生产流程。

如果将时间线拉长观察,视频生成技术实际上已经经历数轮变化。早期视频生成主要依赖规则化动画工具和模板式剪辑系统,生成内容质量有限,制作周期较长。随后深度学习技术开始进入视频领域,模型可以实现简单的动态画面合成,但在人物一致性和场景稳定性方面存在明显缺陷。近两年,多模态技术快速发展推动视频生成能力明显提升,一些模型已经能够根据文本描述生成具有较高视觉质量的短视频。与此同时,行业竞争也在加速。越来越多科技公司开始将视频视作生成式AI的重要方向,不少企业已经尝试将视频能力整合进办公软件、搜索引擎和创意工具之中。过去用户往往需要多个软件完成脚本、配图、配音和剪辑工作,而现在不同能力正在向统一模型整合。这样的变化意味着未来内容创作工具可能出现新的形态。

谷歌推出Gemini Omni,表面上看是一款新模型上线,但其背后反映的是人工智能行业正在进入多模态融合的新阶段。视频能力的提升,不只是让AI“会制作视频”,更可能改变内容生产链条和人机协作方式。未来一段时间内,围绕视频生成和编辑的竞争预计会进一步加剧,模型能力也将持续向真实感、更长时长以及更强可控性方向演进。对于行业而言,下一阶段竞争焦点可能不再只是单项能力,而是谁能够构建更完整、更高效的智能内容生态系统。

风险提示

登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担!

热门推荐