AI 克隆实战——如何用 HeyGen + ElevenLabs 打造超逼真数字分身

频道:AI Samson · 时长:17:39

📺 AI Samson ⏱ 17:39 🗓 2026-05-19

视频信息

项目 内容
标题 AI Cloning Just Got Real: I Proved It on YouTube (New Process)
教程编号 02
视频 ID CsfuT_kj-Lw
时长 17:39
频道 AI Samson
发布日期 2026-04-09
URL https://www.youtube.com/watch?v=CsfuT_kj-Lw
主题 使用 HeyGen、ElevenLabs、Higgsfield 等工具创建超逼真 AI 数字克隆体,并在 YouTube 上实际测试效果

引言

“Two years ago, AI video looked like this. Today, it’s so realistic, it’s becoming almost impossible to tell the difference. In fact, you may not have noticed, but I’m actually an AI clone.”

两年前,AI 生成的视频还一眼就能看穿。而今天,技术已经先进到几乎无法分辨真假——你甚至可能没注意到,视频开头那个在跟你说话的”主持人”,其实是一个 AI 克隆体。这就是 AI Samson 频道的 Sam 在这期视频中给观众抛出的震撼弹。

这期视频不是停留在”概念演示”层面的技术秀。Sam 不仅手把手展示了如何从零开始创建一个逼真的 AI 数字分身,还把 AI 克隆体做出的短视频直接发布到了 YouTube 频道上,用真实的观看数据来验证效果。结果令人惊讶——这些 AI 生成的 Shorts 竟然成了他近一个月内表现最好的短视频。

整个流程涵盖了从素材录制、面部克隆、语音克隆、脚本撰写、环境升级到最终合成的全链路。更重要的是,Sam 还触及了一个很多创作者都在回避的话题:AI 克隆的伦理问题。用 AI 版的自己来做内容,观众到底能不能接受?

第一阶段 — 基础准备:训练 AI 认识”你”

AI 克隆的一切起点,是一段高质量的真人素材。没有好的基础录制,后续所有技术都无法发挥效果。

为什么基础录制如此重要

“Without the right video sample, your AI won’t know how to accurately create the videos. So, what we need to do is we need to train the AI on our likeness.”

Sam 把这一步称为”setting the foundation”——地基。AI 需要通过你的真实视频样本来学习你的面部特征、表情习惯和肢体语言。如果输入素材质量低,输出的克隆体自然也不会逼真。

录制要求清单

Sam 给出了一系列非常具体的录制建议:

  1. 设备要求:尽可能使用最好的设备,尤其要有高质量的麦克风和专业的录制环境
  2. 视频类型:最适合”talking head”(说话头像)风格——也就是面对镜头直接讲话的形式
  3. 录制长度:至少 15 秒的表达性说话视频
  4. 表情与手势:使用自然的表情和手势,表达要生动

“Use natural expressions and gestures. Not like this.”

  1. 语句间停顿:句子之间要有完整的停顿(pause fully between sentences)
  2. 环境要求:选择安静、光线充足的空间
  3. 身体姿态:上身尽量不要大幅移动,保持在画面中心
  4. 眼神接触:保持看着镜头,但记得眨眼——不要太多,也不要太少

“It’s also best to maintain eye contact, but do remember to blink.”

这些看似细节的要求其实决定了最终克隆体的质量。特别是关于眨眼频率的提醒非常实用——如果录制时紧张地盯着镜头不眨眼,AI 学出来的分身也会显得不自然。

第二阶段 — 面部克隆:用 HeyGen 创建你的数字化身

HeyGen 的 Avatar 创建流程

Sam 使用的核心工具是 HeyGen——一款可以基于你的想象力生成视频的 AI 工具。具体操作步骤如下:

  1. 进入 HeyGen 平台
  2. 导航到 AvatarsCreate New Avatar
  3. 选择”克隆真实人物”(Real Person)选项
  4. 选择 Upload Footage(上传素材)而非直接用摄像头录制

“You can record directly from your webcam, but I suggest that you go to upload footage. This will give you the best clone.”

Sam 强调上传预先录好的高质量素材会比直接用网页摄像头录制效果好得多。

身份验证环节

HeyGen 有一个重要的安全机制——身份验证。你需要:

  1. 打开摄像头和麦克风
  2. 朗读系统给出的一段短脚本(Sam 的例子是 “Six HeyGen six”)
  3. 按下提交,等待 30-60 秒的验证确认

“It takes about 30 to 60 seconds to make sure that the consent is valid.”

这一步是为了确认你确实是在克隆自己,而不是未经授权克隆别人——这是平台的伦理防线。

额外功能

第三阶段 — 语音克隆:用 ElevenLabs 复制你的声音

为什么选择 ElevenLabs 而不是 HeyGen 自带语音

“You can clone your voice with HeyGen, but I recommend using a different tool. And that’s because I think it’s the industry-leading option and that is ElevenLabs.”

虽然 HeyGen 自带语音克隆功能,但 Sam 认为 ElevenLabs 是行业领先的选择。他甚至为此付费购买了 Premium 套餐来演示两种不同级别的语音克隆。

两种语音克隆方案对比

方案一:Instant Voice Clone(即时语音克隆) - 只需 10 秒音频 - 2 分钟即可完成 - 更快、更便宜、更简单 - 操作:录制 → 停止 → 填写名称/语言/描述 → 确认版权 → 保存

方案二:Professional Voice Clone(专业语音克隆) - 至少需要 30 分钟高质量纯净音频 - 效果更好,尤其在长脚本中表现更稳定

“They are both exceptional, but I would marginally say that the professional clone is better and certainly across longer scripts it performs at a higher level.”

Sam 同时演示了两种克隆结果,虽然两者都表现出色,但专业版在较长文本中的表现更加自然和稳定。

语音的核心地位

“Voice is the key element here because in some ways we can get away with visuals that are not completely convincing because we can cover those. But, what the key is is having excellent audio accuracy.”

这句话非常关键——Sam 认为声音比画面更重要。视觉上的小瑕疵可以通过 B-roll(辅助画面)来遮盖,但如果声音不对,观众立刻就会出戏。这一点对于想要制作高质量 AI 克隆视频的创作者来说是一个重要的优先级指南。

第四阶段 — 脚本撰写:让 AI 说的话像”人话”

AI 克隆体最大的暴露点

即使有了完美的面部和声音,还有一个东西会立刻暴露你的克隆体——脚本内容本身。

“Even with a perfect face and a perfect voice, there’s one thing that will instantly explode your clone. And that, of course, is what it’s actually saying because often AI doesn’t sound robotic due to the technology, it sounds robotic because people are just generating ChatGPT garbage.”

Sam 非常直白地指出:AI 听起来像机器人,很多时候不是技术的问题,而是人们在用 ChatGPT 生成垃圾脚本的问题。

“AI 味”脚本的典型特征

Sam 嘲讽了一种非常常见的 AI 写作模式:

“Where they’re saying it’s not just a new dawn, it’s also a new sunset.”

这种”不仅是……也是……“的对称句式是 ChatGPT 的标志性套路。一旦脚本里充斥这类表达,即使声音和面部克隆得再逼真,观众也会感觉不对劲。

人性化脚本的要诀

Sam 给出了让脚本听起来像真人说话的关键技巧:

  1. 用短句:不要写冗长的段落
  2. 自然停顿:像真正说话一样有节奏感
  3. 保留小瑕疵:适当的不完美(subtle imperfections)反而增加真实感
  4. 甚至可以有小错误:一些轻微的发音错误(mispronunciations)反而让它更可信

“Writing scripts that feel human means shorter sentences, natural pauses, subtle imperfections, even some mispronunciations can add to the believability that this is real and not AI.”

Sam 的专用 Prompt

Sam 编写了一个专门的 prompt,用于在 ChatGPT 中生成脚本时去除最常见的 AI 腔调。这个 prompt 的功能包括:

“This stops your script sounding artificial, stops your AI clone sounding artificial, and allows you to start feeling intentional.”

虽然 Sam 没有在视频中完整展示这个 prompt 的文本,但他的核心思路非常清楚:去 AI 味是克隆成功的关键环节之一

第五阶段 — 合成出片:把所有元素整合在一起

完整的视频制作流程

  1. 写脚本:在 ChatGPT 中使用去 AI 味的 prompt 撰写脚本
  2. 生成语音:在 ElevenLabs 中选择你的专业语音克隆(如 “Samson Pro”)
  3. 调整参数:可以控制语速(speed)、稳定性(stability)和相似度(similarity),影响声音的快慢和表达力度
  4. 选择模型版本:Sam 个人推荐 ElevenLabs Version 2 模型
  5. 回到 HeyGen:上传音频轨道(Upload Audio → Add Audio)
  6. 设置输出参数:分辨率 1080p,帧率 25fps
  7. 生成视频

需要注意的限制

“The audio limit is currently 180 seconds. So, you have about 3 minutes of footage each time you create this.”

HeyGen + ElevenLabs + ChatGPT 的分工

Sam 用一句话总结了三大工具的角色分配:

“HeyGen handles the face, Eleven Labs handles the voice, ChatGPT’s got the script.”

但 Sam 接着说,要从”好”升级到”great”,还需要第四个元素——视觉环境的升级。

第六阶段 — 视觉升级:用 Higgsfield 和 Nano Banana 提升画面品质

Higgsfield 的特色

“One thing is getting out realistic AI images. An entirely different one is getting out highly aesthetic and cinematic quality outputs.”

Sam 引入了 Higgsfield(本期视频的赞助商)来解决 AI 图像的一个常见问题:AI 生成的图像往往有一种”特定的 AI 感”——过度饱和、对比度不自然、纹理过于完美。

Soul 2.0 模型

Higgsfield 发布了一系列专注于高端时尚和电影级画质的自研模型。Sam 重点介绍了 Soul 2.0 模型:

Sam 用的示例 prompt:cinematic shot in wheat field, sunset, soldier in full armor and sword

皮肤质感增强功能

Higgsfield 提供了三种皮肤增强选项:

  1. Soft Skin:柔化皮肤
  2. Realistic Skin:写实皮肤
  3. Imperfect Skin:不完美皮肤

“Often AI creates this overly airbrushed skin aesthetic. And here you can see that we’re getting out these natural imperfections, which add a sense of realism.”

Sam 选择了 Imperfect Skin,因为 AI 生成的过于光滑的皮肤反而会显得假。加入自然瑕疵——毛孔、小雀斑——能大幅提升真实感。

Color Transfer(色彩迁移)功能

这是一个非常实用的功能:

  1. 上传一张参考图片(比如你的品牌缩略图)
  2. 提取该图片的色调
  3. 保存为”品牌色彩”
  4. 用这组色彩来生成新的图片

“This is fantastic if you’re working on any type of piece that needs to maintain a visual language.”

适用场景包括: - 品牌项目:保持品牌色彩一致性 - 短片叙事:让整部影片有统一的色调 - 系列内容:多集内容保持视觉连贯性

Soul ID Character(角色一致性)

为了在 AI 影像制作中保持角色一致性,Higgsfield 提供了 Soul ID Character 功能:

  1. 上传多张你的照片(建议 20 张以上)
  2. 训练模型学习你的外貌特征
  3. 之后可以在任何 prompt 中引用这个角色

“It works best if you have more than 20 images and you focus on having a clear subject without any obscuring details and that they are not wearing any glasses and looking clearly at the camera.”

拍摄要求: - 面部清晰,无遮挡 - 不戴眼镜 - 直视镜头

训练完成后,你可以在各种场景中生成保持面部一致性的图片。Sam 演示了用 prompt man as a crusader in the first crusade 生成了一张面部高度相似的图片。

第七阶段 — 环境替换与高级克隆体变体

用 Nano Banana Pro 改变录制环境

Sam 介绍了一个巧妙的方法来升级录制环境——使用 Google Flow 中的 Nano Banana Pro

  1. 截取一张你在当前录制环境中的截图
  2. 上传到 Nano Banana Pro
  3. 让 AI 修改场景(例如添加更专业的灯光、植物、电影感照明)
  4. 设置为横屏(landscape),请求 4 个输出
  5. 下载 2K 分辨率的结果

“So, now we’ve got a version of myself with cinematic lighting and a more professional YouTube-based studio.”

用 Higgsfield Motion Control 创建升级版克隆训练视频

接下来的操作非常巧妙——用 Higgsfield 的 Motion Control 功能,把原始的克隆视频和 AI 生成的新环境图片合成在一起:

  1. 进入 Higgsfield → Video → Motion Control
  2. 上传原始克隆视频作为基础素材
  3. 添加刚才生成的新环境图片作为角色/背景
  4. 选择图片驱动背景
  5. 选择 1080p 分辨率
  6. 生成新的克隆训练视频

Sam 展示了生成结果后的感叹:

“I just spent $150 to create a live AI version of myself. And this might just change the whole future of AI.”

然后把这个新版本的视频带回 HeyGen,创建一个全新的、更专业的 Avatar。

趣味变体

Sam 还展示了更多创意玩法:

“This is quite fun if we want to play with reusing our brand, but we want to make it obvious that this is not our lifelike selves.”

这些变体的实用价值在于——当你想用 AI 做内容但又不想让观众误以为是真人时,动画版或风格化版本是一个很好的折中选择。

第八阶段 — 实战验证与伦理思考

YouTube 实测结果

Sam 不是纸上谈兵。他真的把 AI 克隆体制作的短视频发布到了自己的 YouTube 频道上,用真实数据验证效果。

“I’ve been testing this and I actually created a number of shorts with an AI clone on my channel to see how they performed.”

他展示了一条关于中国春晚人形机器人表演的 AI 生成短视频作为案例:

“At the Chinese New Year Gala, humanoid robots danced in perfect sync with human performers showcasing precision movement and real-time coordination.”

结果如何?

“These two AI-generated shorts were actually the top-performing shorts that I’ve posted within the last month.”

这两条 AI 生成的 Shorts 成为了他近一个月内表现最好的短视频。这个数据非常说明问题——观众并没有因为”这是 AI 生成的”就不愿意观看或互动。

这证明了什么

“It showcases that we can use AI to generate compelling content. Now, we’re getting to the point where we can create a brand and use that as leverage to then generate a lot of content with AI.”

Sam 总结了一个重要的趋势:我们正在进入一个可以先建立品牌、再用 AI 大量生成内容的时代。品牌的信任度和 AI 的生产效率结合起来,能实现前所未有的内容规模。

伦理问题

Sam 在视频最后直面了 AI 克隆的伦理问题,并向观众抛出了三个选项:

  1. 在视频开头就告知观众”这是 AI 生成的”
  2. 在置顶评论中说明
  3. 完全不介意,不需要被告知

“How do you feel about viewing an AI-generated version of myself? Would you want me to tell you at the beginning of the video, leave it in a pinned comment, or you don’t mind at all?”

Sam 还透露他正在考虑用 AI 克隆体制作一整期完整的长视频,而不仅仅是 Shorts。

核心概念速查表

概念 说明
HeyGen Avatar 基于真人素材训练的 AI 数字化身,可驱动面部表情和口型
Instant Voice Clone ElevenLabs 的即时语音克隆,只需 10 秒音频,2 分钟完成
Professional Voice Clone ElevenLabs 的专业语音克隆,需 30 分钟高质量音频,效果更佳
Soul 2.0 Higgsfield 的图像生成模型,专注电影级美感和自然质感
Soul ID Character Higgsfield 的角色一致性功能,训练后可在不同场景保持面部一致
Color Transfer 从参考图片提取色调并应用到新生成图片的功能
Nano Banana Pro 通过 Google Flow 使用的 AI 图像编辑工具,可改变场景环境
Motion Control Higgsfield 的视频功能,可将原始动作映射到新的角色/背景上
去 AI 味 Prompt 专门设计的提示词,用于去除 ChatGPT 输出中的典型 AI 腔调
Consent Verification HeyGen 的身份验证流程,防止未经授权克隆他人

实用技巧总结

  1. 上传比实时录制更好:创建 HeyGen Avatar 时,上传预先录好的高质量视频而非直接用摄像头录制,效果会明显更好

  2. 声音优先于画面:在资源有限时优先投入语音克隆的质量——视觉瑕疵可以用 B-roll 遮盖,但声音不对观众立刻出戏

  3. 选择 ElevenLabs V2 模型:Sam 在测试了多个版本后认为 V2 是目前表现最好的模型

  4. 去 AI 味是必修课:写一个专门的 prompt 来消除 “furthermore”、“it’s not just… it’s also…” 等 AI 标志性套话

  5. 刻意保留不完美:在脚本中加入短句、自然停顿甚至轻微口误,让 AI 输出听起来更像真人

  6. 用 Imperfect Skin 增强真实感:Higgsfield 的”不完美皮肤”选项能去除 AI 图像典型的过度磨皮效果

  7. 用 Color Transfer 保持品牌一致性:如果你在做系列内容,提取品牌色调并统一应用到所有生成的视觉素材中

  8. 先做 Shorts 再做长片:Sam 的策略是先用 AI 克隆体制作短视频测试市场反应,确认效果后再尝试长视频

常见误区

  1. 误区:摄像头越好 AI 克隆就越好 实际上不仅仅是画质的问题——表情的自然度、眨眼频率、停顿节奏和上身稳定性同样重要。一段用普通设备录的自然素材,可能比一段用高端设备录的紧绷表演效果更好

  2. 误区:HeyGen 自带语音克隆就够用了 Sam 明确推荐 ElevenLabs 作为”行业领先选择”。专业工具在音质细腻度和长文本稳定性上有明显优势

  3. 误区:AI 克隆听起来像机器人是技术限制 Sam 指出这更多是脚本问题而非技术问题——“people are just generating ChatGPT garbage”

  4. 误区:脚本写得越精准越好 真人说话不是每句都完美无瑕的。适当的不完美——短句、停顿、小口误——反而增加可信度

  5. 误区:AI 图像越完美越好 过度光滑的皮肤、过于饱和的色彩恰恰是 AI 生成图像的暴露点。需要刻意加入不完美

  6. 误区:一个 Avatar 就够了 Sam 展示了创建多个变体的策略——专业版、动画版、性别转换版——不同场景用不同的化身

  7. 误区:AI 生成的内容观众不会看 Sam 的实测数据证明:AI 生成的 Shorts 表现甚至优于真人录制的 Shorts

  8. 误区:AI 克隆只能做短视频 虽然 HeyGen 目前单次上限是 180 秒,但可以分段制作再剪辑,Sam 也在考虑整期长视频使用 AI 克隆

  9. 误区:不用告知观众这是 AI 生成的 这是一个伦理灰区。Sam 主动提出了这个问题并征求观众意见——负责任的做法是至少给出某种形式的告知

  10. 误区:AI 克隆会取代创作者 Sam 的实践表明,AI 克隆更像是创作者的”分身术”——你仍然需要真人来建立品牌信任度,AI 只是帮你在此基础上规模化生产内容

关键要点

  1. 完整工具链:HeyGen(面部)+ ElevenLabs(语音)+ ChatGPT(脚本)+ Higgsfield(视觉升级)构成了一套完整的 AI 克隆工作流

  2. 基础录制决定上限:15 秒以上的自然说话视频,安静环境、良好灯光、适当眨眼和停顿是基础中的基础

  3. 身份验证不可跳过:HeyGen 要求通过摄像头朗读指定文本来验证身份,这是防止滥用的重要机制

  4. Instant vs Professional 语音克隆:前者快速便宜(10 秒音频),后者效果更佳(30 分钟音频)——根据预算和需求选择

  5. 去 AI 味是制胜关键:技术能让你的克隆体看起来像你、听起来像你,但如果”说的话不像你”,一切努力白费

  6. 声音 > 画面:这是 Sam 反复强调的优先级——视觉小问题可以遮盖,声音问题无法隐藏

  7. 180 秒限制:HeyGen 目前每次最多处理 3 分钟音频,长视频需要分段制作

  8. 环境可以 AI 升级:不需要真正搭建高端工作室——用 Nano Banana Pro 就能把普通房间变成电影级布景

  9. $150 的全流程成本:Sam 透露整个 AI 分身的制作成本约为 150 美元

  10. 实战数据验证:AI 克隆生成的 YouTube Shorts 表现优于真人内容——这不是理论预测,是已被验证的事实

  11. 品牌杠杆效应:先用真人建立品牌信任度,再用 AI 实现内容规模化——这是 Sam 看到的核心趋势

  12. 伦理不可回避:AI 克隆的透明度问题(是否告知观众)是每个使用这项技术的创作者都必须面对的选择

结论

这期视频最令人印象深刻的不是任何单一工具的演示,而是 Sam 把理论付诸实践的勇气——他不仅做了 AI 克隆体,还真的把它推到了真实观众面前,用数据说话。结果证明,当技术链条的每个环节都做到位时(高质量基础素材 → 专业语音克隆 → 去 AI 味脚本 → 电影级视觉升级),产出的内容完全可以与真人内容竞争甚至超越。

但 Sam 也没有回避不舒服的问题。在视频的最后,他停下了教学的节奏,认真地问观众:

“How do you feel about viewing an AI-generated version of myself? Would you want me to tell you at the beginning of the video, leave it in a pinned comment, or you don’t mind at all and you simply do not feel the need to be informed?”

这个问题没有标准答案,但 Sam 愿意公开讨论它本身就代表了一种负责任的态度。AI 克隆技术已经成熟到可以欺骗大多数人的眼睛和耳朵——在这个能力面前,透明度和自律比任何技术细节都更重要。

对于想要尝试的创作者,Sam 的建议是渐进式的:先做短视频测试,收集反馈,再决定是否扩展到长视频。技术本身是中性的,关键在于你如何使用它,以及你是否愿意对你的观众坦诚。