E211|站在内容创作者与机器人的交界处:聊聊 3D 数字人的进化
硅谷101
2025/10/24
E211|站在内容创作者与机器人的交界处:聊聊 3D 数字人的进化
E211|站在内容创作者与机器人的交界处:聊聊 3D 数字人的进化

硅谷101
2025/10/24
随着 AI 技术的飞速发展,3D 数字人正从虚拟走向现实,成为连接人机交互的新桥梁。本期节目邀请长期深耕 AI 与动画交叉领域的专家柴金祥教授,探讨如何跨越从生成视频到实时互动的技术鸿沟。
柴金祥回顾了从机器人控制转向 3D 数字人动画的研究历程,指出 Text-to-3D 的核心在于参数化建模与多模态输出,而非单纯的像素生成。通过自研的文生 3D 多模态大模型 “星云平台”,魔珐科技实现了文本到语音、表情、动作的一体化生成,并大幅降低渲染成本,使 3D 数字人可在低算力设备运行。当前 B 端企业广泛采用统一虚拟形象,C 端则迈向个人数字分身。规模化落地仍需突破质量、延迟与成本三重挑战。更深远的是,3D 数字人的动作数据正反哺机器人领域,推动具身智能发展。尽管动力学控制和现实泛化仍是瓶颈,但借助强化学习与 VLA 模型,机器人正从 “白盒” 调试迈向 “黑盒” 端到端决策,预示着智能体在虚拟与现实世界融合的未来路径。
01:50
01:50
Sora 2 相比 Sora 1 有显著进步
04:10
04:10
Sora2 使用视频作为训练数据,具备主体生成能力
07:14
07:14
屏幕上的数字人是人机交流的载体,需实时互动,延时应小于 1.5 - 2 秒
09:00
09:00
3D 数字人成本与大模型生成 Token 相当,远低于文生视频
13:34
13:34
造一个达到发布会效果的 3D 数字人在美国约需 10 万美金
17:58
17:58
一秒高质量人脸动画数据成本至少 1000 元
20:50
20:50
她是全球首个用物理控制方法做数字人动画的人
24:50
24:50
AI 技术最早用于电影制作,可反向赋能机器人领域
29:03
29:03
文生视频不能保证每次生成百分百准确,但可批量生成后挑选;若做实时内容则不可行
31:48
31:48
过去服务一人需两三万元显卡,成本过高导致客户流失
32:07
32:07
AI 端到端模型可在便宜芯片上完成 3D 渲染与解算,大幅降低成本
37:10
37:10
未来每个屏幕都将有一个能说话、有动作的 3D 数字人进行自然交互
42:04
42:04
大模型需从文本提取情绪并生成语音与表情
44:48
44:48
要做自己,不能依赖他人,多模态输出需自主掌控
45:07
45:07
可用 Imitation Learning 进行仿真驱动交流
46:19
46:19
通过强化学习和 Simulation 改善机器人平衡问题
48:36
48:36
3D 动作大模型生成的数据可用于训练机器人完成复杂动作如爬楼梯
53:31
53:31
完全不摔倒、泛化能力强的机器人可能还不存在。
1:00:49
1:00:49
机器人研究正从白盒模式转向端到端的黑盒模式