139: ICCV 最佳论文、光年之外、Sand.ai：曹越十年 AI 之旅，从研究者到 CEO

晚点聊 LateTalk

2025/10/31

Overview Shownote Highlights Transcript Chapters Pins

Shownote

「从模型驱动到垂直整合：Gaga-1 是第一个产物。」 https://pic4.fukit.cn/autoupload/n - L6s5C_cu5ZZHPwIYlQzY12_FRYNb81z6UPhMWD8iI/20251029/x7Fp/1280X910/1280X1280.PNG/webp 图注：飞书 “智能会议纪要” 功能为本次播客生成的概要图。本期节目由飞书特别支持播出！欢迎大家尝试 “智能会议纪要”(https://www.feishu.cn/product/ai-meeting-summary?hideHeader = 1&utm_from = latetalk)，功能，点击前文晚点转述链接，可申请 1 个月免费使用。 2024 年初，刚听说曹越开始新一次创业时，我就找他聊过一次。那时他有一个吸引科技报道者的标签：光年之外联创。今年 10 月的这次正式访谈中，我有点儿理解了为什么王慧文在 2023 年初见了那么多研究者后，会选择曹越来做技术合伙人 —— 曹越是少数在 ChatGPT 之前，预判到大模型热潮的中国研究者。2021 年，他拿下 ICCV 最佳论文后，离开了微软亚研院，加入了国内最早做大模型的机构，智源研究院。让我稍感意外的是，曹越做研究员时，就格外关注组织与机制；2021 年，在看到 DALL - E 和 CLIP 后，他开始研究 OpenAI 是怎么协作的，这也是他加入智源的原因之一。这期节目，曹越回顾了他在清华读本科时，如何看到深度学习，那篇 ICCV 最佳论文的诞生；他从研究员到创业者的转变；对 Sora 的观察，以及 Sand.ai 打造新一代模型 Gaga-1 的思考与实践。通过学习 OpenAI 等全球顶尖公司，更重要的是通过自己的实践和反馈，曹越现在的认知是，要做一个垂直整合的 “端到端” 的组织，更好平衡模型进展与从需求出发，10 月中旬 Sand.ai 新发布的模型 Gaga-1 (https://gaga.art/zh/app) 就是垂直整合的产物。它聚焦解决人物表演问题，“人物不一致、表演假”，是许多试图使用 AI 的内容制作者之前最大的痛点。 https://pic4.fukit.cn/autoupload/n - L6s5C_cu5ZZHPwIYlQzY12_FRYNb81z6UPhMWD8iI/20251030/SWoh/2900X1580/% E6%88% AA% E5% B1%8F2025 - 10-30_13.48.34.png/webp 图注：在 Gaga AI 网站 (https://gaga.art/zh/app) 上，现在可体验音画同出、聚焦人物表演能力的视频生成在技术驱动的 AI 创业时代，一个模型出身的创始人，如何判断趋势，又怎么学习做 CEO？曹越分享了他的探索和体验。本期嘉宾：曹越，Sand.ai 创始人兼 CEO 本期主播：程曼祺，《晚点 LatePost》科技报道负责人 https://pic4.fukit.cn/autoupload/n - L6s5C_cu5ZZHPwIYlQzY12_FRYNb81z6UPhMWD8iI/20251030/B0yw/1655X862/% E6%88% AA% E5% B1%8F2025 - 10-30_23.09.22.png/webp ** 本期播客也有视频版，可在抖音、B 站、小红书、视频号搜索《晚点 LatePost》观看。* 时间线跳转： - 从 ICCV 最佳论文到研究 OpenAI 组织力：设计一个系统，最大化压榨算力 02:08 2014 年转向深度学习 03:37 在微软亚研院学到的 - 1：关注最重要、且有提升空间的 topic 05:09 Swin Transfomer 的诞生，Transformer 被引入视觉任务的两个阶段 11:15 在微软亚研院学到的 - 2：判断 topic 还不够，得以足够资源做出极致效果 13:02 CLIP、DALL・E 冲击：OpenAI 不是论文驱动，而是设计一个系统，最大化压榨算力 18:10 从 GPT-3 到 ChatGPT，3 年疫情阻隔使 OpenAI 巨变被忽略 - 中国为什么没有出现 OpenAI 这样的组织？王慧文说是 “不够富” 21:30 和王慧文、梁文锋聊；他们都在 23 年初遍历国内研究者 26:57 问老王：为什么中国没有出现 OpenAI？——“不够富” 32:54 光年之外的经验：一开始就确立了正确的 “找人方法论” 34:36 CEO 容易焦虑，这时可以想想大问题 -“真的了解创业后，突然感觉什么都对了” 37:16 23 年 8 月开始思考创业：视频生成让自己兴奋 40:54 创业前的自我觉察：ambitious 46:59 第一个模型 Magi-1 花了 1 年多：低估了自回归路线的难度 50:23 正在发生的业务窗口是 “音画同出” -“Sora 2 是一个端到端的模型，OpenAI 是一个端到端的组织” 52:36 Sora 2 的 3 个特点，第三点最让曹越惊艳 58:23 Sora 2 怎么实现 “端到端叙事” 的？ 01:03:58 Vibes vs Sora，Meta 是缝合，OpenAI 是整合 -Gaga-1：从需求出发，优先解决人物表演 01:06:53 新模型 Gaga-1 聚焦人物表演，成本大幅下降 01:10:33 用 AI 做短剧，卡点正在人物表演和成本；Sora 的新启发是叙事 01:15:27 需求分析：短剧制作、广告片、C 端斗视频 01:19:42 Sora 能否成为 C 端新平台？曹越的两个判断指标 - 垂直整合组织的核心就是：不同背景的人，能对齐上下文 01:23:10 PMF 一直讲，一直难：因为模型和产品的磨合就是要花时间 01:28:07 垂直整合：不同背景的人频繁交流，对齐上下文 01:31:16 再看 “模型即产品”：早期产品跟着模型走，现在要互相放大 - 成为 CEO 01:38:41 一个 “专业” 的 CEO 01:42:04 “Gemini 老师” 的最大作用是对齐上下文 01:50:27 所有内容的终局都是 “叙事” 01:52:29 老王的建议：研究皮克斯商业模式 01:56:06 研究者和 CEO 的 “夹角” 01:58:24 最优先级的工作 02:01:01 Next Question：ASI 到来后会怎样 02:03:12 连点成线：往期推荐相关链接：晚点聊 136：《Sora 新世界 & Lovart 4 个月复盘 | 与陈冕聊怎么做垂类 Agent|Agent#5》 (https://www.xiaoyuzhoufm.com/episode/68e82298b97d3bce02b4f815?s = eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9) 晚点聊 58：《光年之外联创再出发，与袁进辉聊 AI Infra 到底做什么？》 (https://www.xiaoyuzhoufm.com/episode/65b19c9bc2bedd4be809a48a?s = eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9) 晚点聊 39：《从美团收购光年之外，聊聊科技公司收并购的操作与故事》 (https://www.xiaoyuzhoufm.com/episode/64ac929e4367d869a6b86e2f?s = eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9) 附录： CNN（卷积神经网络）：由 Yann LeCun（杨立昆）等人在 1989 年提出，用于从图像等网格数据中提取局部特征，是深度学习在计算机视觉领域的基础架构。 Transformer：由 Google Brain 在 2017 年提出，用 “自注意力机制” 替代循环结构，实现了高效的并行训练，成为目前大模型的核心架构。 iGPT（Image GPT）：由 OpenAI 在 2020 年提出，将 GPT 语言建模思想用于图像像素预测，验证了 Transformer 可用于视觉生成任务。 ViT（Vision Transformer）：由 Google Research 在 2020 年提出，将图像分割为小块后输入 Transformer，首次在大规模数据上超越 CNN 的图像识别性能。 Swin Transformer：由微软亚洲研究院刘泽、曹越等人在 2021 年提出，通过 “层次化窗口注意力” 结构改进 ViT，使 Transformer 能高效处理不同尺度的视觉任务。 DALL・E：由 OpenAI 在 2021 年发布，将 GPT-3 与图像生成结合，可根据文字生成符合语义的图像。 CLIP：由 OpenAI 在 2021 年提出，通过大规模图文对比学习，实现文本与图像的语义对齐，是后续多模态系统的基础模型之一。 Instruct-GPT：由 OpenAI 在 2022 年发布，通过基于人类反馈的强化学习（RLHF）让 GPT-3 更好理解指令，是 ChatGPT 产品化的重要前提。剪辑制作：甜食本期主播：小红书 @曼祺_火柴 Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token = YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw - EfCtqmFTkCIM2o=&xsec_source = app_share & xhsshare = CopyLink & appuid = 5dfa9e92000000000100626f & apptime = 1736682459 & share_id = 331aecb9ca7941f498d81fb9c32ea810) 即刻 @曼祺_火柴 Q (https://okjk.co/FBoH1Q) https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/% E6%92% AD% E5% AE% A2-% E7% BB%93% E5% B0% BE% E4% BD%9C% E8%80%85% E7% AD% BE% E5%90%8D.png ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。 https://tc.z.wiki/autoupload/f/vF9vElnh05iCqwr0xfm9iL4wP3sHaC7Y1psXYbgMe5eyl5f0KlZfm6UsKj-HyTuv/20250730/YNjr/907X339/WechatIMG1646.jpg 关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章： https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/% E6%92% AD% E5% AE% A2% E7% BB%93% E5% B0% BE% E6%88% AA% E5%9B% BE.png

Highlights

在 AI 技术快速演进的今天，从模型研发到产品落地的路径愈发复杂。本期节目深入探讨了一位顶尖研究者如何从学术背景走向创业实践，在技术理想与现实需求之间寻找平衡，并重新定义 AI 时代的组织形态与产品逻辑。