E211｜站在内容创作者与机器人的交界处：聊聊 3D 数字人的进化

硅谷101

2025/10/24

Overview Shownote Highlights Transcript Chapters Pins

Shownote

9 月的最后一天，Sora2 发布，它可以把一句话变成一段 10 秒的短视频；好莱坞完全由 AI 创作的演员 Tilly Norwood，诞生 6 个多月就获得了 6.5 万粉丝，她发自拍、代言品牌，却从未真实存在。数字人，正在成为新的内容生产者。但从 “生成一段视频”，到与一个 3D 数字人实时稳定互动，中间隔着很多技术壁垒。本期嘉宾柴金祥教授，他在 2000 年就已经进入卡内基梅隆大学研究机器人，但因为机器人应用与落地极为困难，他们团队反而成为世界上最早用 AI 做 3D 动画的团队；18 年来，他几乎在做同样的研究。从机器人到好莱坞的 AI 动画，到我们今天讨论的 3D 数字人模型是不是又可以反过来驱动机器人，这听起来像是一种轮回，却也是一种新的开始。【主播】泓君，硅谷 101 创始人，播客主理人【嘉宾】柴金祥，魔珐科技创始人兼 CEO，TAMU 计算机科学和工程系终身教授、博导【你将听到】数字人，下一代内容生产者 02:45 从 Sora2 的发布，看 “文生视频” 的进步与局限 05:58 Text-to-Video 与 Text-to-3D 的核心区别：像素和参数 08:55 成本革命的基石：文生 3D 多模态大模型（星云平台） 13:33 传统虚拟数字人是如何动起来的？ 16:34 好莱坞有数据无算法，AI 公司有算法无数据多模态大模型重塑人机交互 19:46 柴教授的从业经历：从机器人控制到数字人动画 20:46 Jessica Hodgins：数字人物理动画的先驱 22:24 很多做 Robotics 很厉害的人，其实都是做动画的 26:49 “交互 - 游戏 - 好莱坞”，渐进式的技术落地路线图 29:45 虚拟数字人的两条岔路：预制的完美 v.s 实时的鲜活 32:07 AI 渲染 + 分层模型，终结 “显卡依赖” 3D 数字人的商业化前景 37:02 B 端的统一形象与 C 端的个人分身 40:36 规模化落地需翻越 “三座大山”：质量、延时、成本 42:21 自研语音，风格化 “人设” 为数字人注入灵魂加速具身智能突破泛化 45:07 对机器人产业判断：白领场景将早于蓝领场景落地 46:13 用海量 3D 动作数据教机器人动作规划，但缺乏力的反馈 47:18 从 “运动学” 到 “动力学”，小脑进化仍需强化学习突破 49:23 从 “爬楼梯” 这件小事，看数据如何促进泛化 58:33 跳脱细节调配，机器人研究进入 “黑盒模式” 【延伸阅读和相关术语】文生 3D 多模态大模型 (https://xingyun3d.com)：一种人工智能模型，输入一段文字描述，就能直接生成一个立体的、会动、会说话的 3D 数字人，“多模态” 指输出包含了语音、表情、肢体动作等多种信息模式。 VLA 模型：下一代机器人的 “大脑” 模型，它能让机器人理解看到的画面（Vision），理解人类的语言指令（Language），并直接规划出要执行的动作（Action）。运动学和动力学（Kinematics and Dynamics）：机器人运动的两个基础学科。运动学解决 “做什么动作” 的问题，不考虑力；动力学解决 “用多大力气做” 的问题。让机器人完成精细操作，需要两者结合。【监制】泓君【后期】 AMEI 【运营】朱婕【BGM】 Azoic - Max Anson Treasure Hunt - Helmut Schenker Lost in Time - Aiyo 【在这里找到我们】公众号：硅谷 101 收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓 FM｜荔枝 FM｜网易云音乐｜QQ 音乐其他平台：YouTube｜Bilibili 搜索「硅谷 101 播客」联系我们：podcast@sv101.net Special Guest: 柴金祥.

Highlights

随着 AI 技术的飞速发展，3D 数字人正从虚拟走向现实，成为连接人机交互的新桥梁。本期节目邀请长期深耕 AI 与动画交叉领域的专家柴金祥教授，探讨如何跨越从生成视频到实时互动的技术鸿沟。