scripod.com

E211|站在内容创作者与机器人的交界处:聊聊 3D 数字人的进化

硅谷101

2025/10/24
硅谷101

硅谷101

2025/10/24

Shownote

9 月的最后一天,Sora2 发布,它可以把一句话变成一段 10 秒的短视频;好莱坞完全由 AI 创作的演员 Tilly Norwood,诞生 6 个多月就获得了 6.5 万粉丝,她发自拍、代言品牌,却从未真实存在。数字人,正在成为新的内容生产者。 但从 “生成一段视频”,到与一个 3D 数字人实时稳定互动,中间隔着很多技术壁垒。本期嘉宾柴金祥教授,他在 2000 年就已经进入卡内基梅隆大学研究机器人,但因为机器人应用与落地极为困难,他们团队反而成为世界上最早用 AI 做 3D 动画的团队;18 年来,他几乎在做同样的研究。 从机器人到好莱坞的 AI 动画,到我们今天讨论的 3D 数字人模型是不是又可以反过来驱动机器人,这听起来像是一种轮回,却也是一种新的开始。 【主播】 泓君,硅谷 101 创始人,播客主理人 【嘉宾】 柴金祥,魔珐科技创始人兼 CEO,TAMU 计算机科学和工程系终身教授、博导 【你将听到】 数字人,下一代内容生产者 02:45 从 Sora2 的发布,看 “文生视频” 的进步与局限 05:58 Text-to-Video 与 Text-to-3D 的核心区别:像素和参数 08:55 成本革命的基石:文生 3D 多模态大模型(星云平台) 13:33 传统虚拟数字人是如何动起来的? 16:34 好莱坞有数据无算法,AI 公司有算法无数据 多模态大模型重塑人机交互 19:46 柴教授的从业经历:从机器人控制到数字人动画 20:46 Jessica Hodgins:数字人物理动画的先驱 22:24 很多做 Robotics 很厉害的人,其实都是做动画的 26:49 “交互 - 游戏 - 好莱坞”,渐进式的技术落地路线图 29:45 虚拟数字人的两条岔路:预制的完美 v.s 实时的鲜活 32:07 AI 渲染 + 分层模型,终结 “显卡依赖” 3D 数字人的商业化前景 37:02 B 端的统一形象与 C 端的个人分身 40:36 规模化落地需翻越 “三座大山”:质量、延时、成本 42:21 自研语音,风格化 “人设” 为数字人注入灵魂 加速具身智能突破泛化 45:07 对机器人产业判断:白领场景将早于蓝领场景落地 46:13 用海量 3D 动作数据教机器人动作规划,但缺乏力的反馈 47:18 从 “运动学” 到 “动力学”,小脑进化仍需强化学习突破 49:23 从 “爬楼梯” 这件小事,看数据如何促进泛化 58:33 跳脱细节调配,机器人研究进入 “黑盒模式” 【延伸阅读和相关术语】 文生 3D 多模态大模型 (https://xingyun3d.com):一种人工智能模型,输入一段文字描述,就能直接生成一个立体的、会动、会说话的 3D 数字人,“多模态” 指输出包含了语音、表情、肢体动作等多种信息模式。 VLA 模型:下一代机器人的 “大脑” 模型,它能让机器人理解看到的画面(Vision),理解人类的语言指令(Language),并直接规划出要执行的动作(Action)。 运动学和动力学(Kinematics and Dynamics):机器人运动的两个基础学科。运动学解决 “做什么动作” 的问题,不考虑力;动力学解决 “用多大力气做” 的问题。让机器人完成精细操作,需要两者结合。 【监制】 泓君 【后期】 AMEI 【运营】 朱婕 【BGM】 Azoic - Max Anson Treasure Hunt - Helmut Schenker Lost in Time - Aiyo 【在这里找到我们】 公众号:硅谷 101 收听渠道:Apple Podcast|Spotify|小宇宙|喜马拉雅|蜻蜓 FM|荔枝 FM|网易云音乐|QQ 音乐 其他平台:YouTube|Bilibili 搜索「硅谷 101 播客」 联系我们:podcast@sv101.net Special Guest: 柴金祥.

Highlights

随着 AI 技术的飞速发展,3D 数字人正从虚拟走向现实,成为连接人机交互的新桥梁。本期节目邀请长期深耕 AI 与动画交叉领域的专家柴金祥教授,探讨如何跨越从生成视频到实时互动的技术鸿沟。
01:50
Sora 2 相比 Sora 1 有显著进步
04:10
Sora2 使用视频作为训练数据,具备主体生成能力
07:14
屏幕上的数字人是人机交流的载体,需实时互动,延时应小于 1.5 - 2 秒
09:00
3D 数字人成本与大模型生成 Token 相当,远低于文生视频
13:34
造一个达到发布会效果的 3D 数字人在美国约需 10 万美金
17:58
一秒高质量人脸动画数据成本至少 1000 元
20:50
她是全球首个用物理控制方法做数字人动画的人
24:50
AI 技术最早用于电影制作,可反向赋能机器人领域
29:03
文生视频不能保证每次生成百分百准确,但可批量生成后挑选;若做实时内容则不可行
31:48
过去服务一人需两三万元显卡,成本过高导致客户流失
32:07
AI 端到端模型可在便宜芯片上完成 3D 渲染与解算,大幅降低成本
37:10
未来每个屏幕都将有一个能说话、有动作的 3D 数字人进行自然交互
42:04
大模型需从文本提取情绪并生成语音与表情
44:48
要做自己,不能依赖他人,多模态输出需自主掌控
45:07
可用 Imitation Learning 进行仿真驱动交流
46:19
通过强化学习和 Simulation 改善机器人平衡问题
48:36
3D 动作大模型生成的数据可用于训练机器人完成复杂动作如爬楼梯
53:31
完全不摔倒、泛化能力强的机器人可能还不存在。
1:00:49
机器人研究正从白盒模式转向端到端的黑盒模式

Chapters

AI 推动数字人与 3D 动画变革
00:00
数字人,下一代内容生产者
从 Sora2 的发布,看 “文生视频” 的进步与局限
02:45
Text-to-Video 与 Text-to-3D 的核心区别:像素和参数
05:58
成本革命的基石:文生 3D 多模态大模型(星云平台)
08:55
传统虚拟数字人是如何动起来的?
13:33
好莱坞有数据无算法,AI 公司有算法无数据
16:34
多模态大模型重塑人机交互
柴教授的从业经历:从机器人控制到数字人动画
19:46
Jessica Hodgins:数字人物理动画的先驱
20:46
很多做 Robotics 很厉害的人,其实都是做动画的
22:24
“交互 - 游戏 - 好莱坞”,渐进式的技术落地路线图
26:49
虚拟数字人的两条岔路:预制的完美 v.s 实时的鲜活
29:45
AI 渲染 + 分层模型,终结 “显卡依赖”
32:07
3D 数字人的商业化前景
B 端的统一形象与 C 端的个人分身
37:02
规模化落地需翻越 “三座大山”:质量、延时、成本
40:36
自研语音,风格化 “人设” 为数字人注入灵魂
42:21
加速具身智能突破泛化
对机器人产业判断:白领场景将早于蓝领场景落地
45:07
用海量 3D 动作数据教机器人动作规划,但缺乏力的反馈
46:13
从 “运动学” 到 “动力学”,小脑进化仍需强化学习突破
47:18
从 “爬楼梯” 这件小事,看数据如何促进泛化
49:23
跳脱细节调配,机器人研究进入 “黑盒模式”
58:33

Transcript

泓君: 欢迎收听《硅谷 101》, 我是泓君。9 月的最后一天,Sora 2 发布,它可以把一句话变成一段十秒的短视频。而好莱坞完全由 AI 创作的演员 Tilly Norwood。他诞生六个多月,就获得了 6.5 万的粉丝,他发自拍,代言品牌,却从来没有真实存在过。所以我们看到一个趋势,数字人他正在成为新的内容生产者。但是我们说在屏幕上生成一段 2D 的视频,到与一个 3D 的数字人,实现一个比较稳定的实时的互动。这中间其实还是有很多的技术壁垒的。本期嘉宾柴金祥教授。他是 2000 年就已经进入了卡内基梅...