146: Gemini 3 翻盘背后、Agent 需要什么大模型、RL 创业机会,与前 Google 创业者、硅谷投资人聊湾区动向
晚点聊 LateTalk
2025/12/26
146: Gemini 3 翻盘背后、Agent 需要什么大模型、RL 创业机会,与前 Google 创业者、硅谷投资人聊湾区动向
146: Gemini 3 翻盘背后、Agent 需要什么大模型、RL 创业机会,与前 Google 创业者、硅谷投资人聊湾区动向

晚点聊 LateTalk
2025/12/26
Shownote
Shownote
「一线开发者看到的前排变化。」 本期是 137 期 Agentic 工具链节目的嘉宾返场,Henry 和 Naomi,他们近期刚刚和普林斯顿 AI 加速创新中心联席主任,王梦迪教授,一起成立了一家新的早期 VC,MoE capital。 这次一起的也有两位之前在 Google DeepMind 和 谷歌云 Vertex AI 平台工作 7 年,刚刚创业,成立 Agent 工具层公司 Precur 的戴涵俊和 Bethany。 我请他们分享了,岁末年初,在硅谷观察到的 AI 水温,OpenAI、Goog...
Highlights
Highlights
在 AI 技术快速演进的当下,一线开发者和投资人正从模型能力、工具链创新与生态协同等多个维度,重新定义智能体(Agent)的边界与可能性。本期节目汇聚了来自硅谷核心团队的实践洞察,深入探讨技术趋势背后的驱动力。
Chapters
Chapters
AI 创业与 Agent 新机会
00:00基础模型竞争和幕后故事:Google 在旧金山开 Gemini 3 Party 的同一天,OpenAI 发布 GPT-5.2
AI 进入实用工作:OpenAI 的 GDPval,Databricks 也发布了 Office QA
06:11GDPval 在主流知识工作上表现优秀,但基础模型处理长尾问题的 gap 始终存在
14:25Gemini 3 后,OpenAI、Anthropic、Google、各自的进展
19:09NotebookLM 和 Nano Banana 策源地 ——Google Labs,不仅招工程师,也有主编、作家、创作者
22:15DeemMind 研究员 Orio:Gemini 3 的秘密?预训练还有很多空间;TPU 对 Google 训练的加持
24:54Google 的 3 层协同优化:从 TPU 到 Infra 到模型;模型和应用;数据和硬件 surface(终端)
26:34Google TPU 已经更多对外,这对英伟达 GPU 优势的影响
30:18回顾组织变化:DeepMind 和 Google Brain 的合并与磨合
38:02大厂竞争中,新公司的成长:围绕 RL 与 Agent 的创业机会
垂类的机会:弥补基础模型到具体问题的差距;水平的机会:调度层、数据层、工具层都有新公司涌现
43:31技术新趋势 —— 自我演化:RL、用 RAG 加长记忆有人尝试,但远不是成熟方案
50:17「可训练的工具层」背后的技术变化:code 驱动工具,如 Anthropic 的 PTC(Programmatic Tool Calling)
53:32RL 创业方向:RL 环境,RL as a Service,RL 应用
59:44Agent 开发者挑选模型的前置条件:用什么云(比如 Azure 客户用不了 Gemini),再看云厂商折扣
1:08:47Anthropic 的 Claude Code 已成为 Agent 核心,刚发布的 Promatic to Call 探索新开发范式
1:12:20开源模型使用体验:Qwen 很棒;驶往 NeurIPS 的飞机上,1 / 3 人在看 DeepSeek-V3.2 技术报告
1:17:13选择模型时,关注什么 benchmark & 为什么?
1:22:04模型优化方向预测:加入大量 agent trace 的开源模型,更强的多模态,长程任务优化
1:29:34连点成线:往期节目推荐
1:38:58Transcript
Transcript
Henry Yin: 还有一个有意思的点是,今年 OpenAI 其实发了三个 Benchmark GDPval,还有 PaperBench,还有一个是 Sweet Lancer。提出 Benchmark 的时候,Report 的哪个模型做得最好,都是 Anthropic 的模型做得最好。所以我对 OpenAI 的研究员,有很大的尊敬,就是他们把 Marketing 和 Research 能够分开,所以我觉得他们还是,非常非常的 Solid,我觉得 OpenAI。
Bethany Wang: Google 内...