scripod.com

139: ICCV 最佳论文、光年之外、Sand.ai:曹越十年 AI 之旅,从研究者到 CEO

晚点聊 LateTalk

Shownote

「从模型驱动到垂直整合:Gaga-1 是第一个产物。」 https://pic4.fukit.cn/autoupload/n - L6s5C_cu5ZZHPwIYlQzY12_FRYNb81z6UPhMWD8iI/20251029/x7Fp/1280X910/1280X1280.PNG/webp 图注:飞书 “智能会议纪要” 功能为本次播客生成的概要图。 本期节目由飞书特别支持播出!欢迎大家尝试 “智能会议纪要”(https://www.feishu.cn/product/ai-meeting-summary?hideHeader = 1&utm_from = latetalk),功能,点击前文晚点转述链接,可申请 1 个月免费使用。 2024 年初,刚听说曹越开始新一次创业时,我就找他聊过一次。那时他有一个吸引科技报道者的标签:光年之外联创。 今年 10 月的这次正式访谈中,我有点儿理解了为什么王慧文在 2023 年初见了那么多研究者后,会选择曹越来做技术合伙人 —— 曹越是少数在 ChatGPT 之前,预判到大模型热潮的中国研究者。2021 年,他拿下 ICCV 最佳论文后,离开了微软亚研院,加入了国内最早做大模型的机构,智源研究院。 让我稍感意外的是,曹越做研究员时,就格外关注组织与机制;2021 年,在看到 DALL - E 和 CLIP 后,他开始研究 OpenAI 是怎么协作的,这也是他加入智源的原因之一。 这期节目,曹越回顾了他在清华读本科时,如何看到深度学习,那篇 ICCV 最佳论文的诞生;他从研究员到创业者的转变;对 Sora 的观察,以及 Sand.ai 打造新一代模型 Gaga-1 的思考与实践。 通过学习 OpenAI 等全球顶尖公司,更重要的是通过自己的实践和反馈,曹越现在的认知是,要做一个垂直整合的 “端到端” 的组织,更好平衡模型进展与从需求出发,10 月中旬 Sand.ai 新发布的模型 Gaga-1 (https://gaga.art/zh/app) 就是垂直整合的产物。它聚焦解决人物表演问题,“人物不一致、表演假”,是许多试图使用 AI 的内容制作者之前最大的痛点。 https://pic4.fukit.cn/autoupload/n - L6s5C_cu5ZZHPwIYlQzY12_FRYNb81z6UPhMWD8iI/20251030/SWoh/2900X1580/% E6%88% AA% E5% B1%8F2025 - 10-30_13.48.34.png/webp 图注:在 Gaga AI 网站 (https://gaga.art/zh/app) 上,现在可体验音画同出、聚焦人物表演能力的视频生成 在技术驱动的 AI 创业时代,一个模型出身的创始人,如何判断趋势,又怎么学习做 CEO?曹越分享了他的探索和体验。 本期嘉宾:曹越,Sand.ai 创始人兼 CEO 本期主播:程曼祺,《晚点 LatePost》科技报道负责人 https://pic4.fukit.cn/autoupload/n - L6s5C_cu5ZZHPwIYlQzY12_FRYNb81z6UPhMWD8iI/20251030/B0yw/1655X862/% E6%88% AA% E5% B1%8F2025 - 10-30_23.09.22.png/webp ** 本期播客也有视频版,可在抖音、B 站、小红书、视频号搜索《晚点 LatePost》观看。* 时间线跳转: - 从 ICCV 最佳论文到研究 OpenAI 组织力:设计一个系统,最大化压榨算力 02:08 2014 年转向深度学习 03:37 在微软亚研院学到的 - 1:关注最重要、且有提升空间的 topic 05:09 Swin Transfomer 的诞生,Transformer 被引入视觉任务的两个阶段 11:15 在微软亚研院学到的 - 2:判断 topic 还不够,得以足够资源做出极致效果 13:02 CLIP、DALL・E 冲击:OpenAI 不是论文驱动,而是设计一个系统,最大化压榨算力 18:10 从 GPT-3 到 ChatGPT,3 年疫情阻隔使 OpenAI 巨变被忽略 - 中国为什么没有出现 OpenAI 这样的组织?王慧文说是 “不够富” 21:30 和王慧文、梁文锋聊;他们都在 23 年初遍历国内研究者 26:57 问老王:为什么中国没有出现 OpenAI?——“不够富” 32:54 光年之外的经验:一开始就确立了正确的 “找人方法论” 34:36 CEO 容易焦虑,这时可以想想大问题 -“真的了解创业后,突然感觉什么都对了” 37:16 23 年 8 月开始思考创业:视频生成让自己兴奋 40:54 创业前的自我觉察:ambitious 46:59 第一个模型 Magi-1 花了 1 年多:低估了自回归路线的难度 50:23 正在发生的业务窗口是 “音画同出” -“Sora 2 是一个端到端的模型,OpenAI 是一个端到端的组织” 52:36 Sora 2 的 3 个特点,第三点最让曹越惊艳 58:23 Sora 2 怎么实现 “端到端叙事” 的? 01:03:58 Vibes vs Sora,Meta 是缝合,OpenAI 是整合 -Gaga-1:从需求出发,优先解决人物表演 01:06:53 新模型 Gaga-1 聚焦人物表演,成本大幅下降 01:10:33 用 AI 做短剧,卡点正在人物表演和成本;Sora 的新启发是叙事 01:15:27 需求分析:短剧制作、广告片、C 端斗视频 01:19:42 Sora 能否成为 C 端新平台?曹越的两个判断指标 - 垂直整合组织的核心就是:不同背景的人,能对齐上下文 01:23:10 PMF 一直讲,一直难:因为模型和产品的磨合就是要花时间 01:28:07 垂直整合:不同背景的人频繁交流,对齐上下文 01:31:16 再看 “模型即产品”:早期产品跟着模型走,现在要互相放大 - 成为 CEO 01:38:41 一个 “专业” 的 CEO 01:42:04 “Gemini 老师” 的最大作用是对齐上下文 01:50:27 所有内容的终局都是 “叙事” 01:52:29 老王的建议:研究皮克斯商业模式 01:56:06 研究者和 CEO 的 “夹角” 01:58:24 最优先级的工作 02:01:01 Next Question:ASI 到来后会怎样 02:03:12 连点成线:往期推荐 相关链接: 晚点聊 136:《Sora 新世界 & Lovart 4 个月复盘 | 与陈冕聊怎么做垂类 Agent|Agent#5》 (https://www.xiaoyuzhoufm.com/episode/68e82298b97d3bce02b4f815?s = eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9) 晚点聊 58:《光年之外联创再出发,与袁进辉聊 AI Infra 到底做什么?》 (https://www.xiaoyuzhoufm.com/episode/65b19c9bc2bedd4be809a48a?s = eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9) 晚点聊 39:《从美团收购光年之外,聊聊科技公司收并购的操作与故事》 (https://www.xiaoyuzhoufm.com/episode/64ac929e4367d869a6b86e2f?s = eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9) 附录: CNN(卷积神经网络):由 Yann LeCun(杨立昆) 等人在 1989 年提出,用于从图像等网格数据中提取局部特征,是深度学习在计算机视觉领域的基础架构。 Transformer:由 Google Brain 在 2017 年 提出,用 “自注意力机制” 替代循环结构,实现了高效的并行训练,成为目前大模型的核心架构。 iGPT(Image GPT):由 OpenAI 在 2020 年提出,将 GPT 语言建模思想用于图像像素预测,验证了 Transformer 可用于视觉生成任务。 ViT(Vision Transformer):由 Google Research 在 2020 年提出,将图像分割为小块后输入 Transformer,首次在大规模数据上超越 CNN 的图像识别性能。 Swin Transformer:由微软亚洲研究院刘泽、曹越等人在 2021 年提出,通过 “层次化窗口注意力” 结构改进 ViT,使 Transformer 能高效处理不同尺度的视觉任务。 DALL・E:由 OpenAI 在 2021 年 发布,将 GPT-3 与图像生成结合,可根据文字生成符合语义的图像。 CLIP:由 OpenAI 在 2021 年提出,通过大规模图文对比学习,实现文本与图像的语义对齐,是后续多模态系统的基础模型之一。 Instruct-GPT:由 OpenAI 在 2022 年 发布,通过基于人类反馈的强化学习(RLHF)让 GPT-3 更好理解指令,是 ChatGPT 产品化的重要前提。 剪辑制作:甜食 本期主播: 小红书 @曼祺_火柴 Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token = YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw - EfCtqmFTkCIM2o=&xsec_source = app_share & xhsshare = CopyLink & appuid = 5dfa9e92000000000100626f & apptime = 1736682459 & share_id = 331aecb9ca7941f498d81fb9c32ea810) 即刻 @曼祺_火柴 Q (https://okjk.co/FBoH1Q) https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/% E6%92% AD% E5% AE% A2-% E7% BB%93% E5% B0% BE% E4% BD%9C% E8%80%85% E7% AD% BE% E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://tc.z.wiki/autoupload/f/vF9vElnh05iCqwr0xfm9iL4wP3sHaC7Y1psXYbgMe5eyl5f0KlZfm6UsKj-HyTuv/20250730/YNjr/907X339/WechatIMG1646.jpg 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/% E6%92% AD% E5% AE% A2% E7% BB%93% E5% B0% BE% E6%88% AA% E5%9B% BE.png

Highlights

在 AI 技术快速演进的今天,从模型研发到产品落地的路径愈发复杂。本期节目深入探讨了一位顶尖研究者如何从学术背景走向创业实践,在技术理想与现实需求之间寻找平衡,并重新定义 AI 时代的组织形态与产品逻辑。
03:23
所在研究组是国内最早买 GPU 做深度学习的团队之一
03:37
要做最受关注且有前进空间的 topic,判断需靠直觉
08:05
Swin Transformer 致力于支持分类以外的细粒度视觉任务
11:15
执行力不足的人虽获关注,却难经时间考验
15:38
论文驱动的研究模式难以支撑重大系统性突破
20:21
智源不以发论文为核心,而是构建如 DALL・E、CLIP 这样的系统并取得成果
25:07
王慧文通过推荐接触国内深度学习优秀人才
30:24
中国尚未出现 OpenAI 的原因在于发展阶段和认知深度不足
33:00
招人看重能力巅峰期而非过往方向
34:45
梁文锋在众人亢奋时依然平静,未受外界影响
43:19
做不成伟大事情不应归因于自身不行,而应寻找更好的方式
48:07
自回归模型需在算法与基础设施上协同设计,初创团队面临人力分配挑战
51:36
新模型实现音画同出,显著增强视频叙事能力
54:52
单个模型直出叙事短片,无需人工设计分镜
1:03:20
Sora 2 再次证明 OpenAI 具备从模型到产品的垂直整合能力
1:04:57
音画同步使视频具有可消费性,是产品设计的关键突破。
1:08:54
Sora 2 和 Gemini 在人物说话场景的核心呈现相似,这是关键洞察
1:11:35
OpenAI 能让模型直出一定尺度的叙事内容,或许前置有语言模型。
1:17:44
输入图片和台词即可生成有表现力的视频,门槛极低
1:19:43
大厂因资金成本低,即便机会小也会因害怕错过而投入
1:24:23
Magi-1 虽未带来明确商业化数字,但在技术侧获得广泛认可和讨论
1:29:07
做模型的人要懂产品运营,做产品的人要懂模型趋势
1:37:41
新模型在人物说话和表演真实度上达到当前 SOTA 水平
1:41:50
Sora 的出现是行业重大变量,需评估其对技术和市场的真实影响
1:47:27
语言模型能揭示不同背景下的词汇理解差异,暴露交流中的根本障碍
1:50:33
所有内容的终局是叙事,短视频亦从记录生活演变为优化观看体验的故事表达
1:52:29
王慧文建议研究皮克斯,因其用 Graphics 技术做电影并长期运营角色 IP,商业模式值得琢磨。
1:57:13
对着一群人讲话很难让所有人理解我的想法,因为大家的上下文不一样
1:59:35
抓时机最难也最重要,需节奏感和行动力匹配组织能力
2:01:01
智商达到一千的 AI 将彻底改变人类文明的运行方式
2:04:43
2026 年将是泛娱乐消费 AI 2C 应用元年

Chapters

为何中国未出现 OpenAI
00:00
从 ICCV 最佳论文到研究 OpenAI 组织力:设计一个系统,最大化压榨算力
2014 年转向深度学习
02:08
在微软亚研院学到的 - 1:关注最重要、且有提升空间的 topic
03:37
Swin Transfomer 的诞生,Transformer 被引入视觉任务的两个阶段
05:09
在微软亚研院学到的 - 2:判断 topic 还不够,得以足够资源做出极致效果
11:15
CLIP、DALL・E 冲击:OpenAI 不是论文驱动,而是设计一个系统,最大化压榨算力
13:02
从 GPT-3 到 ChatGPT,3 年疫情阻隔使 OpenAI 巨变被忽略
18:10
中国为什么没有出现 OpenAI 这样的组织?王慧文说是 “不够富”
和王慧文、梁文锋聊;他们都在 23 年初遍历国内研究者
21:30
问老王:为什么中国没有出现 OpenAI?——“不够富”
26:57
光年之外的经验:一开始就确立了正确的 “找人方法论”
32:54
CEO 容易焦虑,这时可以想想大问题
34:36
“真的了解创业后,突然感觉什么都对了”
23 年 8 月开始思考创业:视频生成让自己兴奋
37:16
创业前的自我觉察:ambitious
40:54
第一个模型 Magi-1 花了 1 年多:低估了自回归路线的难度
46:59
正在发生的业务窗口是 “音画同出”
50:23
“Sora 2 是一个端到端的模型,OpenAI 是一个端到端的组织”
Sora 2 的 3 个特点,第三点最让曹越惊艳
52:36
Sora 2 怎么实现 “端到端叙事” 的?
58:23
Vibes vs Sora,Meta 是缝合,OpenAI 是整合
1:03:58
Gaga-1:从需求出发,优先解决人物表演
新模型 Gaga-1 聚焦人物表演,成本大幅下降
1:06:53
用 AI 做短剧,卡点正在人物表演和成本;Sora 的新启发是叙事
1:10:33
需求分析:短剧制作、广告片、C 端斗视频
1:15:27
Sora 能否成为 C 端新平台?曹越的两个判断指标
1:19:42
垂直整合组织的核心就是:不同背景的人,能对齐上下文
PMF 一直讲,一直难:因为模型和产品的磨合就是要花时间
1:23:10
垂直整合:不同背景的人频繁交流,对齐上下文
1:28:07
再看 “模型即产品”:早期产品跟着模型走,现在要互相放大
1:31:16
成为 CEO
一个 “专业” 的 CEO
1:38:41
“Gemini 老师” 的最大作用是对齐上下文
1:42:04
所有内容的终局都是 “叙事”
1:50:27
老王的建议:研究皮克斯商业模式
1:52:29
研究者和 CEO 的 “夹角”
1:56:06
最优先级的工作
1:58:24
Next Question:ASI 到来后会怎样
2:01:01
连点成线:往期推荐
2:03:12

Transcript

曹越: OpenAI 它展现出来的方法论,一句话表达就是,你怎么样设计一个 scalable 的 system,使得它可以最大化地压榨算力。为什么中国没有出现,像 OpenAI 这样的组织?我见老王的时候,我也问他这个问题,他很快就给我了一个答案。就是当你看到,跟你 skill set 比较接近的人,他们能做成非常伟大的事情的时候。你的感受就是,为什么我们做不了? 程曼祺: 而且你新的答案,肯定不是你不行,肯定不是你猜。欢迎收听完顶聊,我是曼琪。今天的嘉宾是 AI 视频生成公司 Sand AI 的创始人曹越...