Google Omni 全能视频模型——AI 创作者梦寐以求的终极工具

视频信息

项目	详情
标题	Google OMNI Does What Every AI Creator Has Been Waiting For…
播放列表编号	10
视频 ID	LKig4_qePxo
时长	23:35
频道	AI Samson
发布日期	2026-05-20
URL	https://www.youtube.com/watch?v=LKig4_qePxo
主题	Google Omni 视频生成模型的全面功能解析与实操教学

引言

“Google’s new video model, Omni, allows us to do things that were never before possible.” ——AI Samson

Google 终于放出了大招。2026 年 5 月，Google 发布了全新的视频生成模型 Gemini Omni，这不仅仅是又一个 AI 视频工具——它是一个「全能型」创作平台，能够将多种输入（文本、图片、视频、音频、手绘草图）转化为电影级别的视频输出。AI Samson 在这期视频中全面拆解了 Omni 的每一项核心能力，从真实物理模拟到角色一致性，从视频特效叠加到故事板创作，几乎覆盖了 AI 视频创作者多年来一直在等待的所有功能。

这个模型之所以被称为”Omni”（全能），是因为它真正实现了”任意输入、任意输出”的理念。你可以用一段手机拍摄的视频加上一张参考图，生成带有电影特效的混合作品；你可以上传一张照片创建一个虚拟角色，然后在不同场景中反复使用它；你甚至可以画一张草图，让 AI 将其渲染为逼真的影像。更重要的是，Google Omni 底层是一个「思考型模型」（thinking model），它利用 Gemini 的智能来做出每一帧的决策，大幅减少了 AI 视频中常见的”幻觉”问题。

本教程将按照视频的完整脉络，从物理模拟、特效叠加、角色系统、提示词工程到创意工作流，手把手带你掌握 Google Omni 的全部精华。

第一阶段 — 核心能力：物理模拟与文字理解

真实世界物理的直觉式理解

Google Omni 最令人惊叹的特性之一，是它对真实世界物理的深度理解。这不是简单的”看起来像”，而是模型本身具备了对物理力学的直觉式把握。

“You can now create output that follows real-world physics. Omni has an intuitive understanding of forces like gravity, kinetic energy, and fluid dynamics for more realistic movement.”

AI Samson 用一个 Rube Goldberg 机器（多米诺骨牌式连锁装置）的例子来演示这一点。在视频中，一个小球在复杂的障碍赛道上滚动，受到重力、动能和流体力学等多种力的影响，每一个物理交互都显得自然且连贯。这对于创建复杂的运动场景具有重大意义——比如动作序列、体育场景或者任何涉及多物体交互的视频。

“Here is an action sequence that I created. And as you can see, we’ve got myself here going through an incredibly dramatic series of movements.”

AI Samson 本人也亲自测试了这一功能，生成了一段自己的动作戏序列，效果极为戏剧化。

增强型文字理解

另一个革命性的能力是 Omni 对文字的深度理解。这意味着我们可以创建真正有用的、有意义的动态图形（motion graphics）。

“One of the most exciting capabilities of this is enhanced text understanding, because that means we can create useful, meaningful motion graphics that can be applied to videos.”

Google 官方演示了一个字母表视频的例子：画面中展示的每个字母都搭配一个以该字母开头的不寻常物品——比如 C 对应 capybara（水豚）、D 对应 disco globe（迪斯科球）、L 对应 lava lamp（熔岩灯）。这种需要深度语义理解的复杂视频，在之前的 AI 视频模型中是不可能实现的。

思考型模型：Gemini 的智能赋能

“What makes this truly different is that Google Omni is a thinking model, and it’s leveraging the intelligence of Gemini underneath to make intelligent decisions for every part of the video.”

Google Omni 本质上是一个思考型模型。它不是盲目地生成像素，而是利用 Gemini 底层模型的知识——历史、科学、文化背景——来做出每一帧的智能决策。这带来两个关键优势：

减少幻觉：视频中的物体、文字和物理交互更加准确
有意义的叙事：能够创建如氨基酸可视化解释器这样的科学教育内容

“It combines an intuitive understanding of physics with Gemini’s knowledge of history, science, and cultural context, bridging the gap from photorealism to meaningful storytelling.”

AI Samson 举了一个很棒的应用场景：如果你想做一个讲解科学概念的 YouTube 频道，以前需要花费数千美元聘请动画师来制作准确的视觉解说。他提到了 The School of Life 这个频道，每期视频都需要人工一帧一帧地精心动画制作——而现在，Omni 可以直接生成这类内容。

第二阶段 — 参考系统：多模态输入的创意魔法

视频 + 特效叠加

Google Omni 最令人兴奋的工作方式之一，是将真实拍摄的素材与 AI 生成的特效相结合。

“Here, the individual has uploaded a video, and then it’s asked Google Omni to add this effect where he touches the mirror and it changes the entire reality.”

这个「触摸镜子改变现实」的演示完美展示了 Omni 的混合创作能力。你拍摄一段真实的视频，然后让 AI 在上面叠加电影级别的特效。这不是在”替换”真实的表演和拍摄，而是用 AI 去”增强”它。

“I’m not replacing real footage and real acting, but actually using AI to enhance it and create possibilities that would have cost a whole host more before.”

其他创意示例包括： - 用手做出望远镜的形状，Omni 自动在手的圆圈中生成放大效果 - 触摸木制小雕塑，它们会发出所代表动物的声音 - 将真人变成动漫角色或动物形象（深度伪造式变换）

图片 + 音乐 = 同步视频

“The user has uploaded an image and a piece of music. And you’re able to create this cinematic video that is perfectly in time to the music.”

AI Samson 说这是他最喜欢的例子之一：用户上传了一张图片和一段音乐，Omni 生成了一段完美同步的电影级视频——灯光随着每个音符的节拍依次亮起，效果令人着迷。

参考视频 + 参考图片 = 合成

另一种强大的工作方式是将参考视频和参考图片组合。例如，用户拍摄了一段手伸向前方的视频，然后上传一张图片，要求将图片放置在手的上方。Omni 能够保持原始视频的运动轨迹，同时自然地融入新的图像元素。

你可以用太阳系的模型、小飞机等各种图片来做这种合成，效果都非常自然。

为什么参考系统如此重要

“References allow us to speak and communicate with the AI in a much more specific and creative way. When we can say we want something to look like this, it goes away from having to use words as a complete abstraction for what we’re looking for.”

AI Samson 深刻地指出了参考系统的本质价值：当我们能够「展示」而不仅仅是「描述」我们想要的东西时，我们就摆脱了用文字作为完全抽象媒介的限制。这给予了我们更大的控制力、更大的创造力、以及整个过程中更大的乐趣。

第三阶段 — 交互方式：两种使用 Google Omni 的途径

Gemini 聊天界面（回合制迭代）

Google Omni 支持在 Gemini 的聊天界面中通过回合制（turn-based）方式进行迭代创作。你可以：

输入一段视频
要求改变环境
让小提琴变透明
改变摄像机角度

“There is this turn-based approach that we can use in the chat where we are iteratively improving.”

每一轮对话都建立在前一轮的基础上，同时所有不同镜头之间保持一致性（homogeny）。

你还可以更新视频中的小物件——比如把飞机换成种子、换成飞行的时钟、换成红色飞盘、甚至换成一只乌鸦。

Google Flow（推荐工具）

“Another way to use it is in the Google Flow tool, which is my preferred way because it’s specifically engineered just for visual creation.”

AI Samson 更推荐使用 Google Flow，因为它是专门为视觉创作设计的工具，而 Gemini 毕竟还是一个通用的大语言模型聊天机器人。Google Flow 更加专注、更加高效。

重要提示：使用时需要确保在 Google Flow 的下拉菜单中选择了 Omni 模型。

草图与手绘输入

“Another creative way that we can work with Google Omni is by using our own little drawings and sketches to communicate what we’re looking for.”

AI Samson 对手绘草图输入功能表达了极大的热情。作为一个视觉型和触觉型的人，他认为用最原始的纸笔形式来传达创意想法，然后让 AI 去细化和渲染，是创意过程中一个非常重要的工作方式。

“It gives us this ability to paint with broad brushstrokes and have them refined by the power of AI.”

草图输入的实际应用： - 画出运动路径，让小鸟按照画出的圆形轨迹飞行 - 画出一个人吹气的动作，让种子随风飞出

“The challenge with AI now is that we can do anything, we can create anything with AI. But, we need to be able to do two things. We need to have an original idea, and we need to be able to communicate that effectively to the AI.”

这句话道出了 AI 创作时代的核心挑战：我们可以用 AI 创造任何东西，但关键在于两点——拥有原创想法和有效地将想法传达给 AI。

第四阶段 — 角色系统与智能代理

完整的角色一致性系统

Google Omni 带来了 AI 视频领域期盼已久的功能之一：完整的角色一致性（character consistency）。

“There’s an entirely new way to work with characters inside the Google video models.”

在 Google Flow 中的操作步骤：

进入 Characters 标签页
上传一张角色照片（AI Samson 幽默地说他用了自己 Tinder 上的照片）
描述角色特征（例如：“British man, athletic”）
为角色命名
之后在任何提示词中用 @角色名 引用该角色

“I can select myself at the prompt. And so, I can have the prompt show man winning an Olympic 100 meter.”

演示效果：AI Samson 让模型生成了一段自己赢得奥运 100 米决赛的视频，兴奋地喊道”YES! I DID IT!“。他还调侃说自己其实更擅长中距离跑步，但短跑的魅力是无法抗拒的。

角色语音绑定

“The cool thing about Google Omni is we can also attach a voice to this character. So, it maintains not only a consistent likeness, but also a consistent vocal delivery.”

你不仅可以保持角色的视觉一致性，还可以为角色绑定特定的声音，实现外形和语音的双重一致性。这对于创建多场景、多集的复杂项目来说至关重要。

动作捕捉视频作为参考

除了静态照片，你还可以上传一段动作捕捉视频作为角色的运动参考，让 AI 按照你的实际动作来驱动角色。

内置智能代理（Agent）

“The other cool new feature is an agent built directly into Google Omni that you can leverage for a number of different tasks.”

Google Omni 内置了一个 AI 代理，可以完成以下任务： - 头脑风暴新概念 - 优化提示词 - 润色对话 - 进行各种智能调整 - 一次性请求多张特定场景的图片

用户自建工具（Tools）

“These are tools that individuals can build inside of Google that they can then release and help each other with their creative processes.”

Google Omni 还引入了一个工具生态系统，用户可以构建和分享自己的创作工具。现有工具分为四大类：

图片工具（Image Tools）： - Simple Sketch：将简单的手绘草图转化为逼真的图片 - Mock-up Generator：为不同产品创建产品模型 - Image Generator：变换物体、添加文字、调整图片尺寸

视频工具（Video Tools）

提示词工具（Prompting Tools）： - Shot Explorer：从不同角度生成同一场景的多个镜头

实验性工具（Experimental Tools）： - Converge：将草图渲染为真实感效果图 - 360° Environment：从一张图片生成 360 度全景环境（从图片到 3D 的跨越！）

第五阶段 — 提示词工程：如何有效驾驭 Google Omni

核心原则：细节越多，控制力越强

“The key part with prompting in Google Omni is that the more detail you add, the more control you’ll have over the final output.”

AI Samson 介绍了 Google Omni 提示词的五大核心要素：

1. 镜头取景与运动（Shot Framing and Motion）

需要考虑的问题： - 你想如何取景？广角、中景还是特写？ - 你想让摄像机怎么移动？平滑滑动还是突然推进？ - 通过实验找到最适合你场景的方式

示例提示词片段："a wide angle tracking shot glides gently across a serene lake"

2. 风格（Style）

需要考虑的问题： - 你的场景应该有什么感觉？写实还是电影感？接地气还是宏伟壮观？ - 告诉 Gemini Omni 你想要创造的效果，让模型去处理所有细节

3. 光线（Lighting）

“Lighting is a crucial element for any type of emotional resonance inside of your work.”

需要考虑的问题： - 你的场景应该如何打光？ - 光源来自哪里？太阳、街灯还是画面外？ - 光线创造什么效果？清透、温暖还是空灵？

示例提示词片段："brilliant sun crests behind the floating anomaly bathing the entire scene in crisp, ethereal daylight"

4. 场景地点（Location）

告诉 Gemini Omni 你想象的景观，比如 "an alien landscape with clear, azure water"。

“You don’t need to describe every single little detail as Omni will work with your overall intention.”

关键洞察：你不需要描述每一块石头的位置，Omni 只需要理解你的整体方向和意图即可。

“As long as we can communicate intention, we can get out much more detailed outputs.”

5. 动作（Action）

“We don’t have a video without movement.”

需要考虑的问题： - 你的场景中正在发生什么？ - 角色和物体是谁？它们如何移动和交互？

示例提示词片段："a colossal reflective, chrome-like, bean-shaped object levitating effortlessly above, rotating slowly to reveal its distorted reflections"

第六阶段 — 迭代式编辑与电影级摄像技巧

迭代式编辑

“You can ask for a specific update, like a background change or a new caption. And you can do this without needing to prompt the entire scene again.”

Google Omni 的迭代式编辑功能极其强大。Omni 会在多次修改中保留你的视频，保持有效的部分，让你专注于需要调整的地方。

实际操作示例： - "change the butterfly to a bee" → 蝴蝶变蜜蜂 - "change the bee into a small swarm of fireflies" → 蜜蜂变萤火虫群

摄像机控制

“You can change the camera angle, point of view, and movements through natural conversation.”

你可以通过自然语言对话来控制摄像机： - 改变角度（例如拉小提琴的场景，从正面切到过肩视角） - 调整视点 - 修改运动方式

AI Samson 特别指出，即使在改变摄像机角度后，细微的手指动作也保持了一致性。

复杂动作引用

“When you refer to a complex action, Gemini understands your intention and how this action should be applied across your video. You don’t need to describe it across every frame.”

你可以引用复杂的动作，Omni 会理解你的意图并将其贯穿到整个视频中，不需要逐帧描述。

示例："Edit this keeping everything the same and animated motion effects coming out of the skateboard."——滑板产生动画运动特效。

电影级摄像技巧

“What absolutely helps add a cinematic quality to our AI videos is controlled camera work.”

AI Samson 强烈建议学习常用的电影摄像技巧：

Push（推进）：增加紧张感和亲密感
Punch（快推）：突然的强调效果
Dolly zoom（滑轨变焦）：经典的希区柯克效果
拉近：场景变得更紧张、更亲密时使用
拉远：需要更广阔视角或让画面”呼吸”时使用

提示词示例："change the camera angle a close-up on his shoes quickly tilting up to a medium shot then widening"

故事板工作流

“Another great way to work with Google Omni is with storyboarding.”

高级创作方式——故事板（Storyboarding）： 1. 上传多张定义关键画面的静态图片（示例中上传了 6 张） 2. 为每张图片写上简短描述 3. 附上参考图片 4. Omni 将这些”心跳节点”连接成完整的视频序列

AI Samson 提到他有另一个专门讲解如何创建复杂网格图片提示词（grid image prompts）的视频，可以让故事板工作流更加高级。

第七阶段 — Artlist AI Agent：创意辅助工作流（赞助内容）

元提示词（Meta Prompting）技术

视频中还介绍了 Artlist AI Agent 作为另一种创意辅助工具，其中的 meta prompting（元提示词）技术同样适用于 Google Omni。

“This technique is known as meta prompting, and that’s where we get the AI to help us write our prompts, so they deliver more accurate results.”

具体操作流程： 1. 进入 Artlist 的 AI Toolkit → AI Agent 2. 选择 “Help me write a prompt” 模板 3. 输入你的基础创意想法 4. AI 自动扩展和优化提示词

示例： - 输入："A realistic cinematic image of a woman on a cliff at sunset in full Victorian costume" - 输出："A cinematic full-body portrait of a woman standing on the jagged edge of a sea cliff wearing an intricate dark velvet Victorian morning gown with lace detailing"

图片描述反向工程

Artlist AI Agent 的另一个实用功能是”Describe Image”——你可以上传一张喜欢的参考图片，AI 会自动生成对应的提示词，然后你可以直接用这个提示词创建类似风格的新图片。

“This is great for rapidly taking inspiration and turning it into our own work.”

从个体作品到系统化创作

“We’re getting to the point in the AI art life cycle where we need to go beyond creating individual images that work and we need to create systems that allow us to create complex and meaningful pieces of art and design.”

AI Samson 提出了一个深刻的观点：AI 艺术已经进入了一个新的阶段。制作单张好看的图片或视频片段已经变得非常容易，真正能让人脱颖而出的是创建更复杂的作品体系——真正的故事、真正的品牌。Agent 类工具正在帮助我们更真诚、更全面地实现这一目标。

第八阶段 — 创作哲学：从工具到表达

AI 创作的终极问题

视频最后，AI Samson 提出了一个发人深省的问题：

“The deeper question becomes, not what the tool can do, but what do you want to say with it?”

工具的能力已经不再是瓶颈。真正的问题变成了：你想用它说什么？你想表达什么？

提升提示词写作能力

“One of the keys to getting better with AI is writing better prompts. And the best way to do that is to leverage an LLM to do it for you.”

AI Samson 推荐了一个关键策略：用 Claude（Anthropic 的 AI）来帮助你写更好的提示词。他有另一个专门视频讲解如何用 Claude 写复杂提示词，建议搭配观看。

核心概念速查表

概念	说明
Omni（全能）	Google 的新视频生成模型，支持任意输入→任意输出
Thinking Model（思考型模型）	Omni 底层利用 Gemini 的智能进行每帧决策
Google Flow	Google 专门用于视觉创作的工具，AI Samson 的首选
Character Consistency（角色一致性）	创建可复用的角色，在不同场景中保持外形和声音一致
Turn-based Editing（回合制编辑）	在聊天中逐步迭代修改视频
References（参考系统）	用图片/视频/音频作为输入参考来引导生成
Meta Prompting（元提示词）	让 AI 帮你写更好的提示词
Storyboarding（故事板）	上传多张关键帧图片来定义视频序列
Shot Framing（镜头取景）	提示词中定义广角、中景、特写等取景方式
Dolly Zoom（滑轨变焦）	电影级摄像技巧，提升视频质感
Simple Sketch（草图工具）	将手绘草图转化为逼真图片的内置工具
360° Environment	从一张图片生成 360 度全景环境
Agent（智能代理）	Omni 内置的 AI 代理，辅助头脑风暴和提示词优化
Tools（工具生态）	用户自建并分享的创作工具系统

实用技巧总结

优先使用 Google Flow 而非 Gemini 聊天界面——Google Flow 专为视觉创作设计，效率更高、功能更集中。记得在下拉菜单中选择 Omni 模型。
善用参考系统代替纯文字描述——上传参考图片或视频比单纯用文字描述能获得更精准的结果。“展示”永远比”描述”更有效。
建立角色库实现一致性——在 Google Flow 的 Characters 标签页中提前创建好你的角色，绑定照片、描述和声音，之后用 @角色名 快速引用。
用草图控制运动路径——画一条线或一个形状，就能精确控制物体在视频中的运动轨迹，这比用文字描述运动路径直观得多。
学习电影摄像语言——掌握 push、punch、dolly zoom、tilt up 等基本摄像术语，在提示词中使用它们会大幅提升视频的专业感。
用 meta prompting 优化你的提示词——先写一个粗略的想法，然后让 AI（Claude 或 Omni 内置 Agent）帮你扩展和优化成专业级提示词。
用迭代式编辑而非重新生成——不要每次都从头写完整提示词。先生成一版，然后逐步用简短指令修改特定元素（换背景、换物体、换角度）。
用故事板工作流创建复杂叙事——上传 5-6 张关键帧图片加简短描述，让 Omni 将它们串联成完整的视频序列，这是创建复杂作品的高效方式。

常见误区

误区：AI 视频工具会取代真实拍摄 正解：Google Omni 的最大价值之一是增强真实素材，而非取代它。将真实拍摄与 AI 特效结合的”混合创作”才是最强大的工作方式。
误区：提示词越长越好 正解：关键不是长度，而是意图的清晰传达。Omni 不需要你描述每一颗石头的位置，但需要理解你的整体方向和情绪。
误区：只能用文字来与 AI 视频模型沟通 正解：Omni 支持图片、视频、音频、手绘草图等多种输入方式。参考系统是比纯文字更精准的沟通方式。
误区：角色一致性只是”长得像” 正解：Google Omni 的角色系统支持视觉外形和声音的双重一致性，并且可以结合动作捕捉视频来驱动角色动作。
误区：每次修改都需要重新写完整提示词 正解：Omni 的迭代式编辑会保留前一轮的结果，你只需要用简短指令修改特定部分，如”把蝴蝶换成蜜蜂”。
误区：AI 视频中的物理效果都是假的 正解：Google Omni 具备对重力、动能和流体力学的直觉式理解，能够生成遵循真实物理规律的运动效果。
误区：AI 创作只需要学会工具就够了 正解：AI 时代创作的核心挑战不是工具操作，而是拥有原创想法并能有效传达给 AI。工具能力已不再是瓶颈，创意和沟通能力才是。
误区：做出单张好看图片就算掌握了 AI 创作 正解：AI 艺术已进入新阶段——制作单张好图非常容易，真正的差异化在于创建系统化的复杂作品，包括完整的故事和品牌体系。
误区：Google Flow 和 Gemini 聊天界面功能完全相同 正解：虽然两者都可以使用 Omni，但 Google Flow 专门为视觉创作优化，界面和工作流更适合创作者；Gemini 是通用聊天机器人，适合更多对话式交互。
误区：草图输入是给不会画画的人的妥协方案 正解：草图输入是一种强大的创意沟通方式——用”宽笔触”传达核心想法，让 AI 去细化和渲染，这是创意流程的重要组成部分。

关键要点

Google Omni 是”全能型”模型——支持文本、图片、视频、音频、草图等任意输入，生成电影级别的视频和图片输出。
物理模拟是质的飞跃——Omni 对重力、动能和流体力学的直觉式理解，使得复杂运动场景的生成质量达到了前所未有的水平。
思考型模型减少幻觉——底层 Gemini 的知识（历史、科学、文化）赋予 Omni 在每一帧上做出智能决策的能力，而非盲目生成像素。
参考系统是与 AI 沟通的最佳方式——上传参考图片或视频，比用文字描述能获得更精准、更具创意的结果。
角色一致性系统真正实用——在 Google Flow 中创建角色库，绑定外形、描述和声音，用 @ 引用即可在不同场景中复用。
Google Flow 是首选工具——专为视觉创作设计，比 Gemini 通用聊天界面更高效、更专注。
迭代式编辑改变工作流——不需要每次重新提示整个场景，只需针对性地修改特定元素，Omni 会保留其余部分。
五大提示词要素缺一不可——镜头取景与运动、风格、光线、场景地点、动作，每个维度都会显著影响最终输出。
电影摄像语言是提升品质的捷径——学习 push、dolly zoom、tilt up 等专业术语，在提示词中使用它们会让视频瞬间具备专业质感。
草图输入开辟全新创意通道——用纸笔画出粗略概念和运动路径，让 AI 渲染细节，是一种强大而直觉的沟通方式。
从单品到系统是 AI 创作的进化方向——制作单张好图已经不够，真正的竞争力在于建立系统化的创作能力，产出完整故事和品牌。
终极问题不是工具能做什么，而是你想表达什么——当工具的能力不再是瓶颈时，创意和表达意图成为了真正的差异化因素。

结论

Google Omni 的发布标志着 AI 视频创作进入了一个全新时代。它不再只是一个视频生成工具——它是一个融合了物理理解、语义智能、角色系统、多模态输入和迭代式编辑的完整创作平台。从专业影视创作者到业余内容创作者，Omni 真正实现了「创意民主化」：以前需要数千美元和专业团队才能实现的视觉效果，现在一个人用一段视频和几行提示词就能完成。

然而，正如 AI Samson 在视频最后所强调的，工具的强大从来不是最终目的。

“The deeper question becomes, not what the tool can do, but what do you want to say with it?”

当我们拥有了几乎无限的创作能力时，真正重要的是：你想用它讲述什么故事？你想用它表达什么观点？这才是每一位 AI 创作者需要回答的终极问题。

“Most of all, I want to say thank you so much for being here. Thank you for watching till the end.” ——AI Samson