scripod.com

139: ICCV最佳论文、光年之外、Sand.ai：曹越十年AI之旅，从研究者到CEO

Overview

Shownote

Highlights

Transcript

Chapters

Pins

139: ICCV 最佳论文、光年之外、Sand.ai：曹越十年 AI 之旅，从研究者到 CEO

晚点聊 LateTalk

2025/10/31

139: ICCV 最佳论文、光年之外、Sand.ai：曹越十年 AI 之旅，从研究者到 CEO

139: ICCV 最佳论文、光年之外、Sand.ai：曹越十年 AI 之旅，从研究者到 CEO

晚点聊 LateTalk

晚点聊 LateTalk

2025/10/31

Overview Shownote Highlights Transcript Chapters Pins

在 AI 技术快速演进的今天，从模型研发到产品落地的路径愈发复杂。本期节目深入探讨了一位顶尖研究者如何从学术背景走向创业实践，在技术理想与现实需求之间寻找平衡，并重新定义 AI 时代的组织形态与产品逻辑。

曹越作为智源研究院前研究员、Swin Transformer 核心作者之一，分享了他从深度学习早期探索到创办 Sand.ai 的全过程。他指出，OpenAI 的成功不仅在于技术，更在于其端到端整合的系统思维和对算力的极致压榨。受此启发，Sand.ai 放弃纯论文导向，转向垂直整合模式，通过跨背景团队频繁对齐上下文，推动模型与产品双向迭代。其新发布的 Gaga-1 模型聚焦人物表演真实感与音画同步，直击短剧与广告制作中的核心痛点。曹越强调，实现 PMF 需长期磨合，而未来竞争的关键在于组织能力与对叙事本质的理解。从研究者到 CEO，他完成了角色转变，也验证了 AI 创业必须从‘模型即产品’迈向‘需求驱动、系统构建’的新阶段。

03:23

03:23

所在研究组是国内最早买 GPU 做深度学习的团队之一

03:37

03:37

要做最受关注且有前进空间的 topic，判断需靠直觉

08:05

08:05

Swin Transformer 致力于支持分类以外的细粒度视觉任务

11:15

11:15

执行力不足的人虽获关注，却难经时间考验

15:38

15:38

论文驱动的研究模式难以支撑重大系统性突破

20:21

20:21

智源不以发论文为核心，而是构建如 DALL・E、CLIP 这样的系统并取得成果

25:07

25:07

王慧文通过推荐接触国内深度学习优秀人才

30:24

30:24

中国尚未出现 OpenAI 的原因在于发展阶段和认知深度不足

33:00

33:00

招人看重能力巅峰期而非过往方向

34:45

34:45

梁文锋在众人亢奋时依然平静，未受外界影响

43:19

43:19

做不成伟大事情不应归因于自身不行，而应寻找更好的方式

48:07

48:07

自回归模型需在算法与基础设施上协同设计，初创团队面临人力分配挑战

51:36

51:36

新模型实现音画同出，显著增强视频叙事能力

54:52

54:52

单个模型直出叙事短片，无需人工设计分镜

1:03:20

1:03:20

Sora 2 再次证明 OpenAI 具备从模型到产品的垂直整合能力

1:04:57

1:04:57

音画同步使视频具有可消费性，是产品设计的关键突破。

1:08:54

1:08:54

Sora 2 和 Gemini 在人物说话场景的核心呈现相似，这是关键洞察

1:11:35

1:11:35

OpenAI 能让模型直出一定尺度的叙事内容，或许前置有语言模型。

1:17:44

1:17:44

输入图片和台词即可生成有表现力的视频，门槛极低

1:19:43

1:19:43

大厂因资金成本低，即便机会小也会因害怕错过而投入

1:24:23

1:24:23

Magi-1 虽未带来明确商业化数字，但在技术侧获得广泛认可和讨论

1:29:07

1:29:07

做模型的人要懂产品运营，做产品的人要懂模型趋势

1:37:41

1:37:41

新模型在人物说话和表演真实度上达到当前 SOTA 水平

1:41:50

1:41:50

Sora 的出现是行业重大变量，需评估其对技术和市场的真实影响

1:47:27

1:47:27

语言模型能揭示不同背景下的词汇理解差异，暴露交流中的根本障碍

1:50:33

1:50:33

所有内容的终局是叙事，短视频亦从记录生活演变为优化观看体验的故事表达

1:52:29

1:52:29

王慧文建议研究皮克斯，因其用 Graphics 技术做电影并长期运营角色 IP，商业模式值得琢磨。

1:57:13

1:57:13

对着一群人讲话很难让所有人理解我的想法，因为大家的上下文不一样

1:59:35

1:59:35

抓时机最难也最重要，需节奏感和行动力匹配组织能力

2:01:01

2:01:01

智商达到一千的 AI 将彻底改变人类文明的运行方式

2:04:43

2:04:43

2026 年将是泛娱乐消费 AI 2C 应用元年