Google Omni 的真正实力 —— 为什么所有人都用错了这个模型

视频信息

项目	内容
标题	I Don’t Think You Understand How Insane Omni is…
播放列表编号	11
视频 ID	F_EeUYMFx74
时长	18:42
频道	AI Samson
上传日期	2026-05-21
URL	https://www.youtube.com/watch?v=F_EeUYMFx74
主题	Google Gemini Omni Flash 的视频编辑能力、video-to-video 工作流、创意应用场景及 agentic 功能

引言

“Everyone is getting Google Omni wrong. People are comparing Omni to Seance 2 by making fight videos and saying, ‘Look, Omni sucks.’ But honestly, I think most people are missing the point.”

当 Google 发布 Gemini Omni Flash 模型时，整个 AI 社区立即开始了一场”模型大战”——把 Omni 和 Seed Dance 2 放在一起做对比视频，然后得出结论说 Omni 不行。但 AI Samson 在这期视频中提出了一个完全不同的观点：大家都在用错误的方式评价 Omni。

Omni 不是要做最好的 text-to-video 或 image-to-video 模型。它真正的杀手锏是 video-to-video——也就是说，拿一段你已经拍好的真实视频，然后用 AI 去编辑它、变换它、重新混合它。这对于真正的电影制作者、视频创作者和视觉故事叙述者来说，是一个完全不同级别的能力。

AI Samson 将这个突破比作视频领域的”nano banana 时刻”，并展示了从灯光调整、动态图形叠加、音频驱动动画到 agentic 创意代理等一系列令人惊叹的用例。这期视频的核心信息是：AI 的未来不是替代标准创意工具，而是与它们协作。

第一阶段 — 理解 Omni 的定位：它不是你以为的那个东西

Omni vs Seed Dance 2：错误的对比

AI Samson 开门见山地指出了当前社区对 Omni 的最大误解：

“Omni is not trying to be Seance 2. Omni is not the best text to video or image-to-video model that there is. But it is the best video-to-video model. And that matters a lot.”

当人们把 Omni 和 Seed Dance 2 做格斗场景的对比时，Seed Dance 2 确实在动作、图形和视觉效果上表现更好。但这种对比从根本上就搞错了方向——这两个模型解决的是完全不同的问题。

“Nano Banana 时刻”

Google 自己将 Omni 的发布比作”nano banana”时刻——把 Gemini 的智能引入视频编辑领域。这个类比的重点不在于从零生成一段视频，而在于：

编辑（editing）现有视频
变换（transforming）视频内容
重混（remixing）视频素材
通过自然语言（natural language）控制视频

“Now we can think of this breakthrough as Omni being the nano banana moment for video. It is not just about generating a clip from scratch. It is about editing, transforming, remixing, and controlling video through natural language.”

为什么 Video-to-Video 如此重要

AI Samson 点明了一个核心洞察：如果你是真正的电影制作者、创作者或视觉故事叙述者，你需要的不是凭空生成视频的能力，而是把 AI 应用到真实拍摄素材上的能力。

“If you’re a real filmmaker, creator, editor, or visual storyteller, what you need is the ability to apply AI to real footage. And that’s what we can do.”

具体来说，这意味着你可以： - 即时改变镜头中的灯光，同时保持画面的真实感 - 增强你的工作室环境 - 添加特效同时保持真实表演的真实性

Omni 的部署平台

Google 正在将 Gemini Omni Flash 推广到三个平台： 1. Gemini —— 直接在 Gemini 中使用 2. Google Flow —— AI Samson 推荐的首选使用平台 3. YouTube Shorts —— 直接集成到短视频创作流程中

第二阶段 — 公平的对比：Omni 的 Text-to-Video 并不差

打脸式示例

虽然 Omni 的主要优势不在 text-to-video，但 AI Samson 特意展示了几个出色的纯文本生成视频的例子，证明 Omni 在这方面也绝非”不行”。

Lamborghini 广告（来自 Sachin Shetty）： > “This is a high quality output from a single prompt keeping excellent consistency and wonderful addition of animation at the end there.”

这个例子展示了 Omni 能够从单个 prompt 生成高质量的视频，保持出色的一致性，并在结尾添加精美的动画效果。

Tesla 广告（来自 Mr. Das）：同样展示了 Omni 在高质量视频生成方面的出色能力。

JS Film Z 的详细对比

AI Samson 引用了 JS Film Z 整理的一系列 Seed Dance 2 vs Omni 对比。虽然 JS Film Z 说”这甚至不是一场公平的战斗”，但 AI Samson 在分析中发现了一些有趣的细节：

格斗场景： - Seed Dance 2 的格斗场景更好，但仔细看仍有一些打击点不太准确的问题 - Omni Flash 版本节奏很慢，“几乎像游戏画面”，一些动作和现实不太匹配

汽车驾驶场景： - Seed Dance 2 处理得非常流畅，感觉很有电影感 - Omni Flash 有一种”慢动作”倾向，但 AI Samson 特别提到他喜欢车身上的反射效果 - 关键发现：对于不那么激烈的动作场景，两个模型的输出差距要小得多

“This example does show that there is a much closer degree of output for less intense action between the two models.”

机场重逢场景： - Seed Dance 2 表现更好，情绪到位，物理效果合理，剪辑有逻辑 - Omni Flash 的剪切比较awkward，表演不太连贯，存在时间逻辑上的问题

关键结论

“But really this isn’t how we should be using Google Omni at all. What you want to do with Google Omni is take a video that you already have and edit it.”

这些对比的真正目的不是贬低 Omni，而是引导观众理解 Omni 的正确使用方式。

第三阶段 — Video-to-Video 的真正威力

Gerard Lou 的跑步场景示例

AI Samson 展示了 Gerard Lou 的一个精彩示例：同一段跑步视频被变换成多种不同版本： - 跑道场景 - 画廊场景 - 海滩场景 - 甚至可以改变角色的外貌和性别

“We have the protagonist running through firstly just a running track and then going through a gallery and then on the beach and also the ability to change the character not just the likeness but also the gender.”

这解锁了大量令人兴奋的可能性——同一段拍摄素材可以被变换成无数种不同的版本。

真正的问题：两个模型如何协作？

AI Samson 提出了一个更深层的问题：

“The real question is not is Omni better than Sea Dance 2. The real question is what happens when we use Omni and Seed Dance 2 together.”

他给出了一个明确的工作流分工： - Seed Dance 2 → 更擅长生成漂亮的、原始的、电影感十足的写实视频 - Google Omni → 更擅长拿到视频后做有用的事情

WTR onx 的组合工作流

AI Samson 展示了一个理想的组合工作流示例（来自 WTR onx）： 1. 先用 Seed Dance 2 创建一段短视频 2. 然后用 Google Omni 在上面叠加漂亮的动态图形和特效

“And this is just the type of workflow that we are looking to liberate in our processes.”

动态图形的惊人质量

这个示例中的动态图形展示了几个令人印象深刻的特点：

运动轮廓描线：自动追踪舞者的动作，产生美丽的轮廓线效果，强调舞蹈动作
文字排版与构图：文字图形完美地融入画面，与建筑边缘线条精确对齐
有机的文字环绕：文字围绕人物身体线条自然排布，展现出平面设计师级别的审美和技巧
深度遮罩效果：特效不是简单地叠在画面最上层，而是准确地遮罩人物，将效果放在人物和背景之间
精确的文字渲染：字母形态准确，没有抖动或错误

“What’s particularly impressive about these is it accurately goes behind the individual. It’s not as if the effect is just on top. It actually masks the woman and puts it between her and the background.”

第四阶段 — 知识驱动的视频编辑：Omni 最令人兴奋的能力

音频驱动的自动动画

这是 AI Samson 认为最令人兴奋的功能——Omni 不仅能编辑视频的视觉效果，还能理解视频内容并基于知识创建动画。

“You can give Omni an audio file of you speaking about a topic and it can automatically create accurate animations that help to communicate the concept of what you’re discussing.”

具体来说：给 Omni 一段你讲解某个话题的音频文件，它能自动创建准确的动画来帮助解释你正在讨论的概念。

蓝眼睛科普示例（来自 Gazini）

AI Samson 展示了一个来自 Gazini 的示例：讲解蓝眼睛的科学原理。

“Blue eyes do not appear blue because they contain blue pigment. Instead, they have lower levels of melanin in the iris.”

Omni 自动生成了： - 眼睛的放大镜头 - 带注解的解释性动画 - 不同镜头之间的转场效果 - 完整的视觉解说系统

“This is truly exciting for improving our capacity to learn.”

Google 官方示例：大脑海马体

Google 官方展示了一个关于大脑海马体（hippocampus）工作原理的 skeuomorphism 风格定格动画解释视频。这个示例的 prompt 要求： - 定义脚本和旁白 - 创建完整的解释视频 - 不要加海马图片 - 结尾不要有旁白中断 - 不要添加文字

“Meet your brain’s ultimate librarian, the hippocampus. It takes your daily fleeting moments and packs them away into lasting memories.”

动态文字排版

对于广告和视频创作来说，屏幕上的字幕是保持观众参与度的关键工具。Omni 展示了逐字显示文字的能力，每次在屏幕上显示一个单词。

Google 的示例 prompt 要求：“Did you know that this model can do pretty good text? Each word appears with a different animated style, perfect pacing to a rhythm and sizzle reel.”

“And this unlocks a whole host of possibilities for advanced motion graphics for a number of different situations.”

AI Samson 还特别指出，即使 prompt 中有语法错误，AI 也能准确理解你的意图并创建你想要的效果，展示了 Omni 对意图理解的强大能力。

第五阶段 — Agentic 创意代理：被低估的杀手级功能

Google Flow 中的 Agent 功能

AI Samson 认为 Omni 的 agentic（智能代理）能力是一个被严重低估的功能：

“Another big feature of Omni that I don’t think people are talking enough about is the agentic capacity because Google have also added in a creative agent to help you perform tasks whilst using Omni.”

使用方法： 1. 进入 Google Flow（AI Samson 的首选平台，也可以在 Gemini 中直接使用） 2. 找到底部的 Agent 标签页 3. 向 Agent 提问或下达指令

灯光调整实操

AI Samson 展示了一个简单但强大的实际操作： 1. 拍摄一段自己的视频 2. 将视频直接拖入 agentic 对话框 3. 要求改变灯光为更有电影感的效果——“change the lighting to something much more cinematic. Smoke, heavy shadows, intense light” 4. 发送指令，Agent 自动完成处理

创意和商业应用场景

AI Samson 展示了多个实际应用场景：

病毒式内容创作： - 拍摄一段真实视频，然后叠加有趣的元素 - 示例：一只猫试图偷一块披萨 - 示例：一只猴子放在某人头上，它甚至能与眼镜互动产生真实的物理效果

房地产景观设计： - 拍摄一段房产视频 - 让 Omni 展示添加灌木和植被后的效果 - 非常适合景观设计师用来展示方案给客户

“This could be great for landscape artists who are trying to motivate individuals to pay them for a piece of work.”

室内设计：同样的方法可以应用于室内设计——展示改造前后的对比效果。

个人形象改造：拍摄某人的视频，展示时尚改造和发型变化后的效果。

“You could say, ‘Okay, let’s take a look at what this could be like in real life. You can simply take a video and ask Google Omni to demonstrate what the output of that might be.’”

第六阶段 — 电影制作的革命性潜力

《Loving Vincent》与《Waking Life》的启示

AI Samson 用两部经典电影来说明 Omni 对电影制作的革命性意义：

《Loving Vincent》（挚爱梵高）： - 先用真人演员拍摄整部电影 - 然后在每一帧上手绘油画 - 最终创造出一部完全由油画构成的动画电影

《Waking Life》（半梦半醒的人生）： - AI Samson 称之为”可能是我最喜欢的电影” - 同样的方法：先拍摄真人，然后在每一帧上绘制 - 一部非常深刻的哲学电影

“I want to marry this film. I’ve been watching it for years. I think we’re ready. It’s the type of film that you can rewatch a hundred times and still get a deeper understanding from it.”

Omni 赋予的创作自由

Google Omni 让这种创作方式变得可行： - 拍摄真实角色和真实表演 - 不用担心完美的构图、灯光或镜头 - 因为后期可以用 AI 将其重新塑造为新的艺术风格

“We can film real life characters, real life acting, and not have to worry about the perfect composition, the perfect lighting, the perfect shot because we’re going to be remastering it into a new style art afterwards.”

多工具组合工作流

AI Samson 透露他一直在开发一个将自己放入真实影像素材中的新流程。为了制作一个时间旅行主题的有趣视频，他使用了多种工具的组合： - GPT Images 2 - Midjourney - Kling - Seed Dance 2 - Google Omni

“Not all of this was done purely in Google Omni but I am using it to develop a new process for adding ourselves into real pieces of footage.”

第七阶段 — 广告与产品视频

产品一致性

AI Samson 展示了来自 Fannis 的广告示例，突出了 Omni 在广告制作方面的关键优势： - 产品在整个视频中保持完美的一致性 - 可以叠加精美的文字动画 - 支持创建更长的序列，融入音乐和文字动画的重要性

“The product remains perfectly consistent and we get lovely text animations on top.”

HeyGen 的 AI 克隆（赞助内容）

视频中穿插了赞助商 HeyGen 的介绍，AI Samson 坦诚地告诉观众他的克隆体正在说话：

“And actually, believe it or not, this is my clone right now. Now, I will always tell you if I’m using a clone, and up until now, the entire video has been my real self.”

HeyGen 的 Avatar 5 功能： - 只需 15 秒的手机录制就能创建 AI 克隆 - 捕捉声音、动作和语言风格 - 可以生成不同环境和服装的无限视频 - 无论视频长度（2 分钟还是 1 小时），相似度保持一致 - 可以更换服装、地点甚至性别

第八阶段 — AI 创造力的哲学思考与创作者的真实困境

缩略图实验的反思

AI Samson 分享了一个关于 YouTube 缩略图的真实 A/B 测试经历。两张几乎相同的缩略图，唯一区别是其中一张展示了稍多一点的皮肤。结果令人惊讶——这个微小差异在总观看时长上产生了显著的影响。

“You would not believe it. It has like a genuinely significant impact on the total watch time.”

他坦诚地向观众征求意见：

“I genuinely would like to know and how do you view my channel when you see this on the thumbnails? I’m thinking about this deeply and I would love to hear your comments.”

这展现了一个创作者在增长数据和内容诚信之间的真实挣扎。

AI 不是替代品，而是创意放大器

视频的结尾，AI Samson 回归到了关于 AI 和创造力的哲学层面：

“AI has been sold as a replacement for creativity. Generate the thing, skip the craft, get the output faster… But that’s not what interests me about Omni.”

他描述了两种使用 AI 的方式：

方式一（他不认同的）： - 输入 prompt，得到视频，完事 - 什么都不做，说几个字，就期望得到杰作

方式二（他倡导的）： - 先拍摄真实的东西——来自你的身体、在真实地点、有真实光线照射 - 然后把它带入一个能将其塑造成你想象中版本的工具

“For me, this is the truth behind the capacity of AI to enhance our creativity, to give us the tools to reach new heights of expression.”

可及性的革命

过去创作高质量影像的限制是： - 资金 - 剧组 - 设备 - 专业知识 - 时间

Omni 虽然不能完全消除这些障碍，但它让任何有动力、有表达欲望、想创作有意义作品的人都能自己动手实现。

“Omni doesn’t close that gap completely, but it does make it accessible for anyone with motivation, a desire to express their story and make something meaningful to do it themselves.”

核心概念速查表

概念	含义
Video-to-Video	将已有视频素材通过 AI 进行编辑和变换，Omni 的核心能力
Text-to-Video	纯文字描述生成视频，Seed Dance 2 更擅长
Nano Banana 时刻	Google 用来类比 Omni 对视频编辑领域带来的变革性影响
Agentic 能力	Omni 内置的创意代理，可在 Google Flow 中执行复杂任务
深度遮罩	特效能准确识别前景人物并将效果放在人物和背景之间
音频驱动动画	给 Omni 一段音频，它能自动创建与内容匹配的解释性动画
动态文字排版	Omni 生成精确、无抖动的文字动画，具备设计师级别的排版能力
Google Flow	Google 的视频创作平台，AI Samson 推荐的 Omni 使用环境
Seed Dance 2	当前领先的 text-to-video 模型，与 Omni 形成互补而非竞争关系
混合工作流	组合使用多种工具（Seed Dance 2 + Omni + Midjourney 等）的创作方式

实用技巧总结

不要用 text-to-video 来评判 Omni —— 它的真正实力在 video-to-video，用错误的标准衡量会让你错过这个工具的核心价值。
建立 Seed Dance 2 + Omni 的组合工作流 —— 先用 Seed Dance 2 生成原始视频素材，再用 Omni 叠加动态图形、特效和文字动画。
利用 Google Flow 的 Agent 功能 —— 直接拖入视频，用自然语言描述你想要的灯光、环境和效果变化，Agent 会自动完成处理。
用音频驱动动画制作教育内容 —— 录制你的讲解音频，让 Omni 自动创建匹配的解释性动画，这对 YouTuber 和教育类创作者来说是革命性的工具。
先拍后改的创作理念 —— 先用手机或相机拍摄真实素材，不用担心灯光和构图的完美，后期用 Omni 来重新塑造风格。
拓展到商业应用 —— 房地产景观展示、室内设计方案、个人形象改造、产品广告——这些行业都可以用”拍摄现实 + Omni 变换”的方式创作有说服力的视觉内容。
关注动态文字排版能力 —— Omni 的文字渲染精确且美观，可用于创建高质量的 motion graphics、广告字幕和品牌视觉。
多工具协同 —— 不要局限于单一工具。GPT Images 2、Midjourney、Kling、Seed Dance 2 和 Google Omni 各有所长，组合使用才能达到最佳效果。

常见误区

“Omni 是 Seed Dance 2 的竞争对手” —— 错。两者解决不同问题。Omni 是 video-to-video 工具，Seed Dance 2 是 text-to-video 工具，它们是互补关系。
“Omni 的 text-to-video 不行” —— 不完全对。Lamborghini 广告和 Tesla 广告等示例证明 Omni 在 text-to-video 上也能产出高质量内容，只是不如 Seed Dance 2 在激烈动作场景中表现突出。
“做格斗视频对比就能判断模型好坏” —— 格斗场景对任何模型都是高难度挑战，用这种极端测试来评价整体能力是不公平的。
“AI 视频工具只需要一个就够了” —— 最佳工作流是组合多个工具，各取所长。
“用 AI 做视频就是按个按钮的事” —— AI Samson 明确反对这种观点。真正有价值的创作始于真实的拍摄、真实的意图，AI 是增强而非替代。
“Omni 只是个视频滤镜” —— 远不止如此。它的深度遮罩、知识理解、音频驱动动画和 agentic 能力让它成为一个完整的创意合作伙伴。
“只有专业影视人员才能用 Omni” —— Omni 的意义恰恰在于降低门槛，让没有专业设备和团队的创作者也能实现电影级别的视觉效果。
“Omni 的动态图形只是简单叠加” —— 实际上 Omni 能精确识别前景和背景、追踪人物动作、有机排布文字，展现出设计师级别的审美理解。
“AI 视频会取代传统电影制作” —— AI Samson 的观点恰恰相反：AI 是与传统创意工具协作的，不是替代它们的。真实拍摄 + AI 后期才是最强组合。
“越新的模型就一定越好” —— 不同模型有不同的优势领域。选择工具要基于具体任务需求，而不是单纯追新。

关键要点

Google Omni 是 video-to-video 模型，不是 text-to-video 模型。用错误的标准评价它会完全错过它的价值。
Omni 的核心能力是对真实拍摄素材进行 AI 编辑 —— 灯光调整、环境变换、特效叠加、文字动画，同时保持原始表演的真实性。
最佳工作流是组合使用：Seed Dance 2 生成原始素材 + Google Omni 编辑和增强。
音频驱动的自动动画是最令人兴奋的功能 —— 给 Omni 一段讲解音频，它能自动创建精确匹配的解释性视觉动画。
Omni 的 agentic 功能被严重低估 —— Google Flow 中的 Agent 标签页提供了强大的创意代理能力，可以用自然语言执行复杂的视频编辑任务。
深度遮罩和精确文字渲染是关键技术突破 —— 特效不是简单叠加，而是理解场景的深度关系和构图逻辑。
《Loving Vincent》和《Waking Life》式的创作方式现在人人可及 —— 先拍真人视频，再用 AI 重新塑造为独特的艺术风格。
商业应用场景极其广泛 —— 房地产、室内设计、个人形象、产品广告、教育内容、病毒式视频等。
Google 将 Omni 部署到三大平台：Gemini、Google Flow 和 YouTube Shorts，意味着它将深入整个创作生态。
AI 的真正价值不在于替代创造力，而在于增强创造力 —— 过去受限于资金、设备、团队的创作者现在有了实现自己想象的工具。
真实拍摄 + AI 后期 = 最强组合 —— 真实的表演、真实的光线、真实的意图是创作的根基，AI 是将其提升到想象中版本的桥梁。
我们正处于创造力和机会的黄金时代 —— 任何有动力和表达欲望的人都可以创作有意义的作品。

结论

这期视频的核心信息非常清晰：整个社区都在用错误的方式评价 Google Omni。当人们忙着做格斗视频对比，宣布 Omni”不如” Seed Dance 2 时，他们完全忽略了 Omni 作为 video-to-video 模型的革命性意义。

从灯光调整到动态图形叠加，从音频驱动的自动动画到 agentic 创意代理，Omni 提供的是一个全新的创作范式——不是凭空生成视频，而是把你拍摄的真实素材变成你想象中的样子。结合 Seed Dance 2、Midjourney、Kling 等工具的组合工作流，创作者现在拥有了前所未有的创意表达能力。

AI Samson 在视频结尾的这段话，或许是对 AI 创造力最精准的定义：

“What interests me is the other version where you shoot something real. You have an intent, something that came from your body in a real location with actual light falling on it. Then you bring it into a tool that can shape it into the version that you imagined.”

真正的创造力始于真实——真实的意图、真实的表演、真实的情感。AI 不是要替代这些，而是给你工具去实现那些过去因为资金、设备和专业技能不足而无法实现的想象。这不仅是技术的进步，更是创作民主化的里程碑。