如何制作逼真的 AI 视频——从图像到成片的完整工作流

视频信息

项目	内容
标题	The AI Video Process That Makes Everything Look Real (Use This)
播放列表编号	03
视频 ID	Y7W1UhMMmog
时长	17:48
频道	AI Samson
发布日期	2026-04-11
URL	https://www.youtube.com/watch?v=Y7W1UhMMmog
主题	AI 视频写实工作流：从 Midjourney 生图到 Kling 3 / Seedance 2 生成视频的全流程

引言

“Most AI videos look fake, but the fact is creating realistic AI videos like these has never been easier. Yet, most people don’t know how.”

大多数人做出来的 AI 视频一眼就能看出是假的——颜色过饱和、皮肤像塑料人偶、镜头像外星人在操控摄像机。但讽刺的是，制作”以假乱真”的 AI 视频从未如此简单，只是大多数人根本不知道正确的方法。

AI Samson 在这期视频中分享了一套完整的”写实 AI 视频”制作流程：从用 Midjourney 生成高质量起始图像，到用 Meta Prompting 技术精确控制画面，再到用 Magnific.ai 增强皮肤质感，最后用 Kling 3 或 Seedance 2 这两款顶级 AI 视频模型将静态图片转化为逼真的动态影像。整个流程环环相扣，每一步都在提升画面的”真实感评分”。

这不是一个需要 AI 专家才能掌握的高深技术。正如他所说——你只需要知道正确的流程（the right process），然后按步骤执行即可。

第一阶段 — AI 视频的常见问题：为什么你的视频一眼就假

在进入工作流之前，我们必须先理解”假”在哪里。AI Samson 逐一列举了 AI 视频中最常见的穿帮问题，这些是你必须避免的坑。

1.1 颜色过饱和与不自然的对比度

“One thing that we get is highly saturated unnatural colors, where they’re massively pushing the contrast and sharpness to unnatural levels.”

很多人生成 AI 视频后会发现画面颜色浓烈到失真——对比度和锐度被推到了不自然的程度。真实世界的画面有柔和的色彩过渡，而 AI 视频常常像是被套了一层过于浓烈的滤镜。

1.2 磨皮效果过重：塑料感皮肤

“You’ll also notice there is a high degree of airbrushing and ultra soft smooth skin.”

AI 生成的人物皮肤通常过于光滑，像是被磨皮 App 处理过的照片。没有毛孔、没有雀斑、没有任何瑕疵——这恰恰是最大的破绽。真实的人类皮肤有纹理、有瑕疵，这些细节才是”真实感”的来源。

1.3 不自然的镜头运动

“Another massively obvious detail of AI generated video is the unnatural camera movements. They’ll have cameras unnaturally floating in the air in a way that doesn’t seem real.”

AI 视频中的摄像机经常像是悬浮在空中，没有任何物理支撑，做出人类摄影师不可能做出的运动轨迹。这种”外星人视角”的镜头运动是暴露 AI 生成痕迹的重灾区。

1.4 细节粘连与毛发问题

“You can see the hair here is overly matted.”

头发、绳索、布料等精细元素经常呈现出一种”粘连”的质感（matted quality），像是被胶水糊在一起，缺乏真实世界中细丝分明的自然飘逸感。

1.5 表情僵硬与群体行为克隆

“We’ll have extremely unrealistic facial expressions. And when we have groups of people… you’ll see that they often walk in exactly the same manner, that there’s no variety between the gate.”

AI 生成的人物面部表情经常不自然，而当画面中出现多个人物时，问题更加明显——他们的步态几乎一模一样，像是同一个模板的复制粘贴（copy and paste）。

1.6 物理规律的崩塌

“If you follow this rope, first of all, you see this man is not even holding it. And second of all, you’ll see that it’s absolutely nonsensical the way that the rope trails around and then congregates in this large pile.”

AI 目前对物理规律的理解仍然薄弱。绳索不受重力影响、人物没有真正握住物体、液体的流动违反常识——这些”简单物理”上的错误会立刻打破观众的沉浸感。

第二阶段 — 核心理念：Image-to-Video（图生视频）

“One of the biggest tips I can give you is to make sure that you’re using image to video. And this means instead of using a text prompt to directly create your video, you’re first generating an image and using that to influence the video design.”

这是整个工作流的基石。不要直接用文本提示词生成视频——那是在”赌博”。正确的做法是：

先生成一张高质量的图片作为视频的第一帧
可选：再生成一张图片作为视频的最后一帧
用这两张图片来引导视频生成

2.1 为什么这样做更好

“The advantage here is we know how the exact first frame will be, and we also have the option of adding a last frame. This means that we take out the gambling factor from AI video, and we’re not randomly pulling a lever and imagining what we might get out. We have complete control over what happens.”

直接文生视频（text-to-video）就像拉老虎机——你不知道会出来什么。而图生视频让你掌控了开头和结尾，消除了随机性，获得了对画面的完全控制权。

2.2 关键前提：图片必须足够真实

“If our images don’t look realistic, then our video won’t look realistic.”

这意味着你的起始图片质量直接决定了最终视频的质量。垃圾图片进去，垃圾视频出来——这就是为什么接下来的图像生成阶段如此重要。

第三阶段 — 图像生成：Midjourney V8 + Meta Prompting

3.1 为什么选择 Midjourney V8

“The workflow that I recommend using is to start off with Midjourney. And the reason for this is it’s just released its brand new version 8 model, and I believe that the aesthetic, the taste of these images is the highest.”

AI Samson 推荐以 Midjourney 作为起点，原因很明确：

美学水平最高：Midjourney V8 的出图”品味”（taste）在所有 AI 图像模型中最优秀
电影感画质：天然具备优秀的色彩分级和构图感
速度提升 5 倍：V8 比之前的版本快了五倍
写实度足够：虽然不是最写实的模型，但足以作为后续增强的基础

“It doesn’t have the highest realism, but we can go through a process that’s actually going to enhance the realism of these. But what’s most important is that we start off with something that looks good.”

关键洞察：先追求”好看”，再追求”真实”。Midjourney 提供的是出色的视觉基础，真实感可以通过后续步骤来补充。

3.2 使用技巧：`--R 4` 参数批量生成

在 Midjourney 中使用 --R 4 参数（即 --repeat 4），可以一次性生成 16 张图片，极大加快迭代速度。

3.3 Meta Prompting 技术详解

“This is where we use an LLM to help us write specific articulate prompts that give us out a controlled output.”

Meta Prompting 是用大语言模型（LLM）来帮你撰写更精准、更专业的图像生成提示词。这个方法的核心逻辑是：

Midjourney 等图像生成器在收到具体的、专业的描述时表现最好
大多数人不具备摄影、电影摄影方面的专业词汇量
用 LLM 来”翻译”你的简单想法为专业级提示词

“This requires you to think more like a photographer than a prompt writer. And what helps is having accurate specific vocabulary for elements like the camera types, the composition, the colors, and the setting.”

3.4 Meta Prompting 实战演示

AI Samson 提供了一个 Meta Prompt 模板，你需要做的只是在模板的括号处填入你的基本想法。

输入示例：

“A cinematic still of a young female British police officer in riot gear on the streets of London at a protest, smoke and flares in the background.”

LLM 输出的增强提示词包含： - 构图细节：“She occupies the left third of the frame, the right third bleeds into chaos, the pavement reflects broken light” - 具体摄影器材：“Shot on an ARRI Alexa with 35mm anamorphic lens” - 以及更多关于色彩、氛围、灯光的专业描述

“I have actually recently switched from ChatGPT to Claude, and I’m now a Claude fanboy.”

AI Samson 提到他最近从 ChatGPT 转向了 Claude 来做 Meta Prompting——他自称是 Claude 的粉丝。不过他强调任何 LLM 都可以胜任这个任务。

第四阶段 — 多角度一致性：Grid Prompting 与 Nano Banana 2

4.1 为什么需要多角度一致性

“One thing that breaks believability in AI video instantly is when there is inconsistency between shots. If suddenly the character looks different, the location seems completely changed, or elements like the lighting or camera type change. These subtly break the illusion of reality.”

真正的电影场景会从不同角度拍摄同一个场景，但画面中的人物、环境、灯光始终保持一致。如果你的 AI 视频在不同镜头之间出现角色样貌变化、场景突然切换、灯光风格不统一，观众会立刻感觉”这是假的”。

4.2 Grid Prompting 技术

“Nano Banana 2 shines at creating whole collections of images that fit a theme.”

AI Samson 使用了 Google Gemini 3 配合 Nano Banana 2 来实现多角度一致性。具体方法叫做 Grid Prompting（网格提示）：

提供一张参考图像
让 AI 生成一个包含9个不同角度/构图的网格图
所有9个画面保持一致的：
- 色彩分级（color grading）
- 角色外貌（character consistency）
- 场景环境（location）
- 整体美学风格（aesthetic）

4.3 导出单帧

“Once you’ve created your grid, you can then ask the AI to export any of these at full resolution. So, you enter a prompt like ‘export top left frame.’”

生成网格后，你可以通过文字指令导出任意一帧的全分辨率版本。例如：

“Export middle row right image CU”（导出中间行右侧的特写镜头）
可以按行列位置或使用简写来指定

下载时建议选择 2K upscaled 分辨率。

4.4 应用案例

AI Samson 展示了几个 Grid Prompting 的案例： - 一个女人与大蛇搏斗的多角度序列 - 亚马逊雨林徒步的多角度场景

每个网格都确保了跨镜头的一致性，这对于后续将每个画面转化为视频片段至关重要。

第五阶段 — 皮肤质感增强：从”AI 脸”到”真人脸”

“A dead giveaway for any AI video is this airbrushed perfect-looking skin that looks more like a doll than a human being.”

皮肤质感是区分 AI 生成画面与真实画面的最关键因素之一。完美无瑕的皮肤反而是最大的破绽——真实的皮肤有毛孔、雀斑、细纹、小痣。

5.1 方案一：Magnific.ai

AI Samson 首推的皮肤增强工具是 Magnific.ai，操作步骤：

上传图像
选择 Skin Enhancer Version 1 Creative 模式
设置参数：
- Sharpen（锐化）：0（零）
- Grain（颗粒感）：2%
点击 Upscale

效果展示：

“This is before the upscaling, and here is after. And you can see just instantly it’s upgraded. We get a much more refined and focused output. If you look particularly at the lips here, just the wonderful cracks that come in.”

嘴唇上出现了自然的纹路裂隙，皮肤上出现了细小的痣和毛孔——这些微小的”瑕疵”恰恰让画面变得真实。

5.2 Magnific.ai 的局限性

“Sometimes, if you have some sort of effects or features on the face, it can remove those.”

Magnific.ai 有一个重要缺陷：它可能会移除面部的特殊效果： - 血迹飞溅可能被识别为胎记（birthmark） - 战争油彩（war paint）可能被完全擦除 - 任何非常规的面部装饰都可能被”修正”掉

另外，Magnific.ai 价格较贵，而且功能比较单一（only doing one thing）。

5.3 方案二：Higgsfield AI 的 Skin Enhancer

作为替代方案，AI Samson 介绍了 Higgsfield AI 平台的皮肤增强功能：

上传媒体文件
从三种皮肤类型中选择：
- Soft（柔和）
- Realistic（写实）——推荐选择
- Imperfect（不完美）
加入处理队列，等待结果

Higgsfield AI 的优势是它是一个一站式平台，一个订阅包含图像、视频、音频等多种 AI 模型，性价比更高。

第六阶段 — AI 视频生成：Kling 3 vs Seedance 2

6.1 选择正确的视频模型

“One of the most important decisions when creating AI video is selecting the right AI video model.”

在完成图像准备工作后，选择哪个模型来生成视频至关重要。AI Samson 推荐两个顶级模型，并详细说明了各自的适用场景。

6.2 Kling 3

优势：高质量输出、卓越的画面清晰度
生成长度：最长 15 秒
最佳场景：复杂光影条件

“With these complex lighting conditions, my preference is marginally for Kling 3.”

在处理面部阴影、复杂打光等场景时，Kling 3 的表现略胜一筹。阴影能准确地跟随皮肤的轮廓变化。

6.3 Seedance 2.0

“You may have seen this model sweeping the interweb with some of the most realistic AI video we’ve seen.”

Seedance 2.0 是一个刚刚全球发布的新模型，在互联网上引起了轰动：

优势：动态运动场景的市场领导者
物理模拟：极其出色的动态运动物理效果
最佳场景：格斗、击剑等复杂动作

“This model suddenly is the market leader for any type of extremely complex movement situations.”

限制：Seedance 2 目前对输入内容有严格限制，特别是涉及真实人物和知识产权（IP）的内容。

6.4 直接对比

AI Samson 进行了并排对比测试：

场景	Kling 3	Seedance 2
常规人像	出色，细节保持好	出色，与 Kling 3 不分上下
复杂光影（面部阴影）	略优	优秀
动态格斗场景	良好	明显更优
极近特写（嘴部/毛孔）	出色	出色

“These are the two leading models, and I highly recommend that you use one of these two.”

选择建议： - 需要动态运动效果 → Seedance 2 - 需要复杂光影处理 → Kling 3

6.5 First & Last Frame Prompting

生成视频时，使用准备好的增强图像作为第一帧和最后一帧，这让你对视频的起止画面有完全的掌控，进一步消除了随机性。

第七阶段 — 批量生成与 Multishot 技术

7.1 问题：单个片段只有3秒

“That’s not all, because now we’ve just got 3 seconds. What we really need is to have multiple clips that we can put together.”

单次生成的视频通常只有几秒钟，要组成一个完整的视频，你需要多个连贯的片段。

7.2 Multishot 批量生成

“There is a quick way that we can generate many different shots in one single video prompt.”

利用之前创建的 Grid Prompt 图像，可以一次性生成多个视频片段：

将 Grid Prompt 图像上传到 Nano Banana
要求 AI 移除所有文字和边框
开启 Multishot 模式
设定每帧动画化 1.5 秒
增加总长度后生成

这种方法会将网格中的每个画面分别动画化，确保所有片段之间保持一致性和连贯性。

7.3 速度 vs 质量的平衡

“It really means balancing up whether you’re focusing on speed of generation or ultimate realism.”

你也可以选择单独导出每个网格画面，分别进行皮肤增强等精细处理后再生成视频——这更耗时但效果更好。Multishot 方法则更快但精细度稍低。根据你的项目需求来选择。

第八阶段 — 镜头运动：像导演一样思考

8.1 为什么镜头运动如此重要

“One of the biggest dead giveaways of AI video is a floating, drifting camera without any direction that a human being would never do.”

漂浮、无方向的镜头运动是 AI 视频最大的破绽之一。真实的摄影有明确的镜头语言——每个运镜都有意图，都遵循物理规律。

“It’s essential that we define precisely what is the camera movement we’re looking for, so that we don’t get this alien-like camera work.”

8.2 常用镜头运动术语

AI Samson 提供了一份详细的镜头运动术语表，以下是他在视频中演示的几种：

术语	效果描述
Camera Follows	摄像机跟随主角移动
Pan Left	镜头向左平移，远离拍摄主体
Orbit Around	环绕角色旋转
Dolly In	平滑、渐进地向主体推进
Jib Up	摄像机沿长杆升起，聚焦天空
360 Roll	360° 旋转，创造眩晕感的创意效果
Handheld	手持拍摄风格，带有轻微抖动
Tripod	三脚架固定拍摄，画面稳定
Drone Shot	无人机航拍视角

8.3 Higgsfield 的镜头运动工具

在 Higgsfield 的 Cinema Studio 中，有一个可视化的镜头运动选择器：

进入 Cinema Studio → Video
浏览各种预设的镜头运动风格
鼠标悬停即可预览效果
选择适合你场景的运镜方式

这比手动输入镜头术语更直观，特别适合不熟悉摄影术语的创作者。

核心概念速查表

概念	含义	重要性
Image-to-Video	先生成图像再转为视频，而非直接文生视频	消除随机性，掌控画面
Meta Prompting	用 LLM 将简单想法转化为专业级提示词	提升图像生成质量
Grid Prompting	生成包含多个角度的网格图，保持一致性	多镜头连贯性
Skin Enhancement	使用专业工具为皮肤添加毛孔、瑕疵等细节	消除”AI脸”塑料感
First & Last Frame	同时指定视频首尾帧来引导生成	精确控制视频走向
Multishot	将网格图一次性动画化为多个连贯片段	批量生成提高效率
Camera Movement Terminology	使用专业摄影术语定义镜头运动	避免”外星人”镜头
Nano Banana 2 / Gemini 3	用于 Grid Prompting 的多角度一致性生成	跨镜头角色统一

实用技巧总结

永远使用 Image-to-Video 工作流：不要直接用文字生成视频。先有好图片，再有好视频——这是最重要的一条原则。
用 LLM 写提示词（Meta Prompting）：把你的简单想法交给 Claude 或 ChatGPT，让它用摄影、电影领域的专业术语帮你扩写成详细的提示词。
Midjourney V8 搭配 --R 4 参数：一次生成 16 张图，快速迭代，从中挑选最佳的视觉基础。
用 Grid Prompting 创建多角度序列：在 Nano Banana 2 中生成 9 宫格，确保所有镜头在色彩、角色、环境上保持一致。
皮肤增强是必做步骤：使用 Magnific.ai（Skin Enhancer V1 Creative，Sharpen=0，Grain=2%）或 Higgsfield 的 Realistic 皮肤类型。毛孔和瑕疵 = 真实感。
根据场景选择视频模型：动态运动场景用 Seedance 2，复杂光影场景用 Kling 3。不要只用一个模型。
明确定义镜头运动：在提示词中使用 Dolly In、Pan Left、Handheld 等专业术语，杜绝漫无目的的漂浮镜头。
善用 Multishot 批量生成：把网格图直接导入并开启 Multishot 模式，一次生成多个连贯片段，大幅提高效率。

常见误区

误区：直接用文字提示词生成视频就够了 纠正：文生视频随机性太大，应该先生成高质量图像，再用 Image-to-Video 工作流。
误区：皮肤越光滑越好看 纠正：过于光滑的皮肤是 AI 生成的最大破绽。真实感来自毛孔、雀斑、细纹等”不完美”的细节。
误区：随便写个简单提示词就行 纠正：AI 图像生成器需要具体、专业的描述才能产出好结果。用 Meta Prompting 让 LLM 帮你补充摄影术语。
误区：Midjourney 的写实度不够高就不用了 纠正：Midjourney V8 的美学水平最高，写实度可以通过后续的皮肤增强步骤来弥补。先追求”好看”，再追求”真实”。
误区：一个 AI 视频模型就能搞定一切 纠正：不同模型有不同强项——Kling 3 擅长复杂光影，Seedance 2 擅长动态运动。根据场景选择合适的工具。
误区：不需要关心镜头运动 纠正：漂浮、无方向的镜头运动是 AI 视频最大的穿帮。必须用专业术语精确指定你想要的运镜方式。
误区：多个镜头之间不需要保持一致 纠正：角色外貌、场景环境、灯光风格在不同镜头间的不一致会立刻打破真实感。用 Grid Prompting 确保跨镜头的统一性。
误区：Magnific.ai 的皮肤增强可以无脑使用 纠正：它可能会移除面部的特殊效果（血迹、战争油彩等），使用前要检查图片是否有需要保留的面部装饰。
误区：追求更高的锐度和对比度能让视频更好看 纠正：过度的锐化和对比度是 AI 视频的典型特征。真实的画面有柔和的色彩过渡和自然的对比度。
误区：AI 视频制作需要专家级技能 纠正：你不需要是 AI 专家，只需要知道正确的流程并按步骤执行。工具和提示词模板都是现成的。

关键要点

Image-to-Video 是基石：永远先生成图像再转视频，用首尾帧消除随机性，获得对画面的完全掌控。
从 Midjourney V8 开始：它的美学品味最高，是视觉基础的最佳起点，用 --R 4 参数批量迭代。
Meta Prompting 是必备技能：用 LLM 把你的简单想法翻译成包含具体摄影器材、构图、色彩描述的专业提示词。
Grid Prompting 确保多镜头一致性：用 Nano Banana 2 生成 9 宫格，保持角色、场景、灯光跨镜头统一。
皮肤增强不可跳过：使用 Magnific.ai 或 Higgsfield 添加毛孔、雀斑、细纹——“瑕疵”才是真实感的关键。
Magnific.ai 推荐设置：Skin Enhancer V1 Creative，Sharpen 设为 0，Grain 设为 2%。
两大顶级视频模型各有所长：Kling 3 擅长复杂光影，Seedance 2 擅长动态运动——根据场景选择。
Seedance 2 的动态运动是革命性的：在格斗、击剑等复杂动作场景中，它的物理模拟远超其他模型。
镜头运动必须明确指定：使用 Dolly In、Pan Left、Orbit Around 等专业术语，避免无方向的”外星人镜头”。
Multishot 模式极大提高效率：将网格图直接动画化，一次生成多个保持一致性的视频片段。
像导演一样思考：整个工作流的本质是”系统性思维”——理解每个工具的优势，将它们组合成一个高效的生产管线。
速度与质量之间需要权衡：Multishot 快但精细度稍低；单独导出并增强每帧更慢但效果更好——根据项目需求选择。

结论

AI 视频的写实感不是靠单一工具或某个神奇的提示词就能实现的——它是一套系统化的工作流。从 Midjourney V8 的高美学起点，到 Meta Prompting 的精准控制，从 Grid Prompting 的多角度一致性，到 Magnific.ai 的皮肤质感增强，再到 Kling 3 和 Seedance 2 这两大顶级视频模型的精准运用，每一个环节都在往”真实感评分”上加分。

“The secret to creating realistic AI videos is thinking in systems as a director to create a process that allows you to access the strengths of these new tools.”

制作逼真 AI 视频的秘密，是像导演一样用系统思维来设计流程，把每个工具的长处发挥到极致。你不需要成为 AI 专家——你只需要掌握这个流程，然后一步一步执行下去。