scripod.com

139: ICCV 最佳论文、光年之外、Sand.ai:曹越十年 AI 之旅,从研究者到 CEO

晚点聊 LateTalk
在 AI 技术快速演进的今天,从模型研发到产品落地的路径愈发复杂。本期节目深入探讨了一位顶尖研究者如何从学术背景走向创业实践,在技术理想与现实需求之间寻找平衡,并重新定义 AI 时代的组织形态与产品逻辑。
曹越作为智源研究院前研究员、Swin Transformer 核心作者之一,分享了他从深度学习早期探索到创办 Sand.ai 的全过程。他指出,OpenAI 的成功不仅在于技术,更在于其端到端整合的系统思维和对算力的极致压榨。受此启发,Sand.ai 放弃纯论文导向,转向垂直整合模式,通过跨背景团队频繁对齐上下文,推动模型与产品双向迭代。其新发布的 Gaga-1 模型聚焦人物表演真实感与音画同步,直击短剧与广告制作中的核心痛点。曹越强调,实现 PMF 需长期磨合,而未来竞争的关键在于组织能力与对叙事本质的理解。从研究者到 CEO,他完成了角色转变,也验证了 AI 创业必须从‘模型即产品’迈向‘需求驱动、系统构建’的新阶段。
03:23
03:23
所在研究组是国内最早买 GPU 做深度学习的团队之一
03:37
03:37
要做最受关注且有前进空间的 topic,判断需靠直觉
08:05
08:05
Swin Transformer 致力于支持分类以外的细粒度视觉任务
11:15
11:15
执行力不足的人虽获关注,却难经时间考验
15:38
15:38
论文驱动的研究模式难以支撑重大系统性突破
20:21
20:21
智源不以发论文为核心,而是构建如 DALL・E、CLIP 这样的系统并取得成果
25:07
25:07
王慧文通过推荐接触国内深度学习优秀人才
30:24
30:24
中国尚未出现 OpenAI 的原因在于发展阶段和认知深度不足
33:00
33:00
招人看重能力巅峰期而非过往方向
34:45
34:45
梁文锋在众人亢奋时依然平静,未受外界影响
43:19
43:19
做不成伟大事情不应归因于自身不行,而应寻找更好的方式
48:07
48:07
自回归模型需在算法与基础设施上协同设计,初创团队面临人力分配挑战
51:36
51:36
新模型实现音画同出,显著增强视频叙事能力
54:52
54:52
单个模型直出叙事短片,无需人工设计分镜
1:03:20
1:03:20
Sora 2 再次证明 OpenAI 具备从模型到产品的垂直整合能力
1:04:57
1:04:57
音画同步使视频具有可消费性,是产品设计的关键突破。
1:08:54
1:08:54
Sora 2 和 Gemini 在人物说话场景的核心呈现相似,这是关键洞察
1:11:35
1:11:35
OpenAI 能让模型直出一定尺度的叙事内容,或许前置有语言模型。
1:17:44
1:17:44
输入图片和台词即可生成有表现力的视频,门槛极低
1:19:43
1:19:43
大厂因资金成本低,即便机会小也会因害怕错过而投入
1:24:23
1:24:23
Magi-1 虽未带来明确商业化数字,但在技术侧获得广泛认可和讨论
1:29:07
1:29:07
做模型的人要懂产品运营,做产品的人要懂模型趋势
1:37:41
1:37:41
新模型在人物说话和表演真实度上达到当前 SOTA 水平
1:41:50
1:41:50
Sora 的出现是行业重大变量,需评估其对技术和市场的真实影响
1:47:27
1:47:27
语言模型能揭示不同背景下的词汇理解差异,暴露交流中的根本障碍
1:50:33
1:50:33
所有内容的终局是叙事,短视频亦从记录生活演变为优化观看体验的故事表达
1:52:29
1:52:29
王慧文建议研究皮克斯,因其用 Graphics 技术做电影并长期运营角色 IP,商业模式值得琢磨。
1:57:13
1:57:13
对着一群人讲话很难让所有人理解我的想法,因为大家的上下文不一样
1:59:35
1:59:35
抓时机最难也最重要,需节奏感和行动力匹配组织能力
2:01:01
2:01:01
智商达到一千的 AI 将彻底改变人类文明的运行方式
2:04:43
2:04:43
2026 年将是泛娱乐消费 AI 2C 应用元年