scripod.com

127: 与真格戴雨森 25 AI 中场复盘:OpenAI 的 IMO 金牌、Kimi K2 翻盘、Agent 普及和抢人大战

晚点聊 LateTalk

Shownote

「一个登月时刻?」 今天的嘉宾,是 106 期曾做客《晚点聊》的真格基金管理合伙人戴雨森。这期节目分两次录制,一次是在上周,在 2025 年年中的复盘和展望时刻,我们聊了真格投资的月之暗面新鲜出炉的 K2,AI 应用普及这条大主线的变化,和近期热闹非凡的抢人大战。 一次是在今天(7 月 21 日)下午。我们补充聊了刚刚发生的新进展:OpenAI 在上周五发(7 月 18 日)布了 ChatGPT Agent,更重要的是,这个周末(7 月 19 日),OpenAI 又宣布用一个未公开的通用大语言模型,第一次达到了 IMO 国际奥赛金牌水准。这之前,只有 Google DeepMind 针对数学专门做优化的模型达到过银牌水平。 2 年半前,曾写下《通用人工智能的火花》 (https://arxiv.org/abs/2303.12712) 的现 OpenAI 研究员 Sébastien Bubeck 形容,这(通用大语言模型拿下 IMO 金牌)最终可能会成为一个登月级别的进展。 https://img.51shazhu.com/autoupload/n - L6s5C_cu5ZZHPwIYlQzY12_FRYNb81z6UPhMWD8iI/20250721/5XMP/890X1050/% E6%88% AA% E5% B1%8F2025 - 07-21_21.26.26.png 已持续两年多的 AI 竞速没有放缓,模型能力与应用创新交替上升,而两者的进化速度,可能都在被低估。 本期主播:程曼祺,《晚点 LatePost》科技报道负责人 本期嘉宾:戴雨森,真格基金管理合伙人,* 投资了 Kimi(月之暗面)、与爱为舞、无问芯穹、Genspark * 等 AI 项目。 时间线跳转: -OpenAI 拿下 IMO 金牌,又一个李世石时刻 01:06 OpenAI 新模型拿下 IMO 金牌:首个到这一水平的通用 LLM、强化学习也能处理难判别任务、Google 也做到了? https://tc.z.wiki/autoupload/f/vF9vElnh05iCqwr0xfm9iL4wP3sHaC7Y1psXYbgMe5eyl5f0KlZfm6UsKj-HyTuv/20250722/wjzL/2280X1276/Screenshot%2B2025 - 07-15%2Bat%2B5.15.01% E2%80% AFPM.png 图注:Jason Wei 博文中 “验证的非对称性” 图示,落在红色斜线下方的任务更容易被 AI 全自动化地完成。 14:38 抢人大战后,Meta 谁都不服谁的情况可能更严重 16:31 ChatGPT Agent 不惊艳,但别低估它;“壳” 的价值在于 context - 再谈 AI 应用普及:最重要的、被高估的、被低估的 27:39 总要进展:Coding 和推理能力持续提升、Agent 形态有了初步共识、多模态更实用了 https://tc.z.wiki/autoupload/f/vF9vElnh05iCqwr0xfm9iL4wP3sHaC7Y1psXYbgMe5eyl5f0KlZfm6UsKj-HyTuv/20250722/eKOu/1200X610/WechatIMG899.jpg 图注:OpenAI 研究院、强化学习专家 Noam Brown 发 Twitter 提到,拿到 IMO 金牌的模型与 Multi Agent 有关。 33:59 机器人进厂打螺丝的速度,被高估了;应用(壳)的价值、优秀团队的韧性、模型进展速度被低估了 40:53 从 All in AI 到外卖大战? - 不同公司,走向各自的未来 42:37 DeepSeek R2,等待新基模 43:43 字节 Seed 组织的进一步分工:Edge、Focus、Base 46:39 K2,Kimi 的乔戈里峰 https://tc.z.wiki/autoupload/f/vF9vElnh05iCqwr0xfm9iL4wP3sHaC7Y1psXYbgMe5eyl5f0KlZfm6UsKj-HyTuv/20250722/KdXf/2016X1642/% E6%88% AA% E5% B1%8F2025 - 07-22_07.25.47.png 图注:7 月 22 日 OpenRouter 编程类目模型调用,K2 已从上周二发布第 4 天时的第 10 上升到第 5。 58:32 技术排位变化:Google is back、ChatGPT 更强化超级应用、Anthropic 也自己 “造壳” - 应用的生长 01:15:23 雇佣 AI——1 个月 1000 美元的 AI 订阅费 01:23:19 Agent 的应用进展需要新的 L3 模型 01:30:22 在硅谷,对创业产品的像素级模仿为何较少发生 - 新的提问 01:35:35 持续好奇:如何衡量智能的边界? 01:38:00 灰犀牛:当个人有了大量生产力,怎么处理效率 vs 公平? 01:43:31 未来几个月想验证的悬念?——L3 模型如何到来 01:48:37 一款契合 AI 创业者的游戏《33 号远征队》 相关链接: 晚点聊 106 期:与真格戴雨森长聊 Agent:各行业都会遭遇 “李世石时刻”,Attention is not all you need (https://www.xiaoyuzhoufm.com/episode/67cdb53f7ccfd410926b0c66) 晚点聊 110 期:与明势夏令聊 Agent 竞争:通用入口之战就要来,创业要做垂、做专 (https://www.xiaoyuzhoufm.com/episode/67fd8cafcc06f8ff48a73642) 晚点聊 103 期:用 Attention 串起大模型优化史,详解 DeepSeek、Kimi 最新注意力机制改进 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399) Context Engineering for AI Agents: Lessons from Building Manus 《AI Agent 的上下文工程:从构造 Manus 中学到的》 (https://medium.com/@peakji/context-engineering-for-ai-agents-lessons-from-building-manus-71883f0a67f2)(Manus 联创季逸超近期发布的 Context Engineering 文章) Sparks of Artificial General Intelligence: Early experiments with GPT-4《通用人工智能的火花:GPT-4 的早期实验》 (https://arxiv.org/abs/2303.12712) Asymmetry of verification and verifier’s law《验证的不对称性和验证者法则》 (https://www.jasonwei.net/blog/asymmetry-of-verification-and-verifiers-law)(Jason Wei 近期博文) 剪辑制作:甜食、Nick 本期主播: 小红书 @曼祺_火柴 Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token = YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw - EfCtqmFTkCIM2o=&xsec_source = app_share & xhsshare = CopyLink & appuid = 5dfa9e92000000000100626f & apptime = 1736682459 & share_id = 331aecb9ca7941f498d81fb9c32ea810) 即刻 @曼祺_火柴 Q (https://okjk.co/FBoH1Q) https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/% E6%92% AD% E5% AE% A2-% E7% BB%93% E5% B0% BE% E4% BD%9C% E8%80%85% E7% AD% BE% E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://tc.z.wiki/autoupload/f/vF9vElnh05iCqwr0xfm9iL4wP3sHaC7Y1psXYbgMe5eyl5f0KlZfm6UsKj-HyTuv/20250730/YNjr/907X339/WechatIMG1646.jpg 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/% E6%92% AD% E5% AE% A2% E7% BB%93% E5% B0% BE% E6%88% AA% E5%9B% BE.png

Highlights

本期节目由《晚点聊》主持人程曼祺与真格基金管理合伙人戴雨森共同回顾 2025 年 AI 领域的发展与未来趋势。节目分为两次录制,首次聚焦于月之暗面 K2 模型的发布与 AI 应用的普及趋势,第二次则补充讨论了 OpenAI 在 7 月 18 日发布的 ChatGPT Agent,以及其通用大语言模型在 IMO 国际数学奥林匹克竞赛中取得金牌的突破性进展。嘉宾从技术、人才、产品等多个维度,深入剖析了 AI 行业的最新动态与长期趋势。
00:50
通用大语言模型已达到 IMO 金牌水平
01:06
OpenAI 模型在 IMO 竞赛中获得金牌,六道题做对五道,未联网、未专门优化、未使用工具
15:49
腾讯从通义、字节 Seed 组织挖人,人才争夺持续
17:49
中国 AI 公司在做 PPT 等任务上结果优于 ChatGPT Agent
31:30
L3 模型帮助 Agent 应用输出更丰富内容并提升用户体验
36:15
Kimi K2 是目前最好的开源大模型
41:51
与其免费喝奶茶不如训练大模型
45:43
解决 corner case 和修 bug 对冲击下一代模型帮助不大
48:50
Kimi 团队基于稳定成员和长期信任,成功推出 K2 模型
1:04:02
Google DeepMind 凭借人才与 TPU 在 AI 领域展现竞争力
1:15:23
嘉宾表示每月 AI 产品订阅花费接近 1000 美金,多为最高级版本
1:23:19
Kimi 在模型训练中加入更多工具使用能力以提升 Agent 表现
1:34:31
硅谷买人式收购反映竞争激烈,大公司愿用钱换时间与竞争优势
1:37:38
只要 benchmark 出现,AI 进展就很快
1:42:11
强调应推出对用户有价值的产品,减少空洞营销
1:48:26
找到好方向的应用创业不应放弃,因大趋势非一年能走完
1:53:46
AI 或将助力科研人员加速科学发现

Chapters

2025 年终 AI 复盘与展望
00:00
OpenAI 拿下 IMO 金牌,又一个李世石时刻
OpenAI 新模型拿下 IMO 金牌:首个到这一水平的通用 LLM、强化学习也能处理难判别任务、Google 也做到了?
01:06
抢人大战后,Meta 谁都不服谁的情况可能更严重
14:38
ChatGPT Agent 不惊艳,但别低估它;“壳” 的价值在于 context
16:31
再谈 AI 应用普及:最重要的、被高估的、被低估的
总要进展:Coding 和推理能力持续提升、Agent 形态有了初步共识、多模态更实用了
27:39
机器人进厂打螺丝的速度,被高估了;应用(壳)的价值、优秀团队的韧性、模型进展速度被低估了
33:59
从 All in AI 到外卖大战?
40:53
不同公司,走向各自的未来
DeepSeek R2,等待新基模
42:37
字节 Seed 组织的进一步分工:Edge、Focus、Base
43:43
K2,Kimi 的乔戈里峰
46:39
技术排位变化:Google is back、ChatGPT 更强化超级应用、Anthropic 也自己 “造壳”
58:32
应用的生长
雇佣 AI——1 个月 1000 美元的 AI 订阅费
1:15:23
Agent 的应用进展需要新的 L3 模型
1:23:19
在硅谷,对创业产品的像素级模仿为何较少发生
1:30:22
新的提问
持续好奇:如何衡量智能的边界?
1:35:35
灰犀牛:当个人有了大量生产力,怎么处理效率 vs 公平?
1:38:00
未来几个月想验证的悬念?——L3 模型如何到来
1:43:31
一款契合 AI 创业者的游戏《33 号远征队》
1:48:37

Transcript

程曼祺: 欢迎收听晚点聊,我是曼琪,今天的嘉宾是 106 期曾做客晚点聊的,真格基金管理合伙人戴雨森。这一期的主题是 2025 年年终时刻的 AI 复盘和展望。我们分两次录制,一次是在上周。随着 KimiK 2 的发布,以及一批 Agent 应用的持续进步,我们重新聊了 AI 应用普及这条主线的变化,一次是在今天下午。我们补充聊了刚刚发生的新进展。OpenAI 在上周五,发布了 ChatGPT Agent。更重要的是,这个周末,OpenAI 又宣布,用一个未公开的,通用大语言模型。第一次达到了 IMO 国际...