scripod.com

146: Gemini 3翻盘背后、Agent需要什么大模型、RL创业机会|与前 Google 创业者、硅谷投资人聊湾区动向

Overview

Shownote

Highlights

Transcript

Chapters

Pins

146: Gemini 3 翻盘背后、Agent 需要什么大模型、RL 创业机会|与前 Google 创业者、硅谷投资人聊湾区动向

晚点聊 LateTalk

2025/12/26

146: Gemini 3 翻盘背后、Agent 需要什么大模型、RL 创业机会|与前 Google 创业者、硅谷投资人聊湾区动向

146: Gemini 3 翻盘背后、Agent 需要什么大模型、RL 创业机会|与前 Google 创业者、硅谷投资人聊湾区动向

晚点聊 LateTalk

晚点聊 LateTalk

2025/12/26

Overview Shownote Highlights Transcript Chapters Pins

Shownote

「一线开发者看到的前排变化。」本期是 137 期 Agentic 工具链节目的嘉宾返场，Henry 和 Naomi，他们近期刚刚和普林斯顿 AI 加速创新中心联席主任，王梦迪教授，一起成立了一家新的早期 VC，MoE capital。这次一起的也有两位之前在 Google DeepMind 和谷歌云 Vertex AI 平台工作 7 年，刚刚创业，成立 Agent 工具层公司 Precur 的戴涵俊和 Bethany。我请他们分享了，岁末年初，在硅谷观察到的 AI 水温，OpenAI、Goog...

Highlights

在 AI 技术快速演进的当下，一线开发者和投资人正从模型能力、工具链创新与生态协同等多个维度，重新定义智能体（Agent）的边界与可能性。本期节目汇聚了来自硅谷核心团队的实践洞察，深入探讨技术趋势背后的驱动力。

10:08

GPT-5.2 在相同成本下完成任务的能力显著提升

18:17

ChatGPT 本身可视为 Agent，连接工具后更是如此。

20:56

Gemini 3 Pro 在生成网页和交互体验上的突破使其具备强传播性

24:21

Nano Banana 的名字来自美甲上的香蕉图案，命名过程十分随意。

24:55

Google 的 Orio 在 Gemini 3 发布后表示其在 Pretraining 上有诸多突破，且未来还有改进空间。

26:34

谷歌 TPU 与模型基础设施协同设计打通整个生态系统，如今迎来爆发点

36:29

英伟达曾视 Google TPU 为劲敌，老黄要求谷歌云采购 NVIDIA GPU 以换取放缓 TPU 推广

42:10

纯粹的研究员更注重研究过程的自我突破，在谷歌内部仍可分享成果。

49:48

小厂在 AGI 实现前有机会在特定领域超越大模型

50:23

持续学习能让模型在应用场景中越用越好，Cursor 号称已实现在线强化学习。

57:43

盲测中比现有工具好 12%，显著提升 Agent 性能

1:01:49

RL 环境正从 AI 玩游戏转向具有实际经济价值的应用场景

1:08:47

企业不会轻易让数据离开当前云平台，迁移成本高且 CTO 态度保守

1:12:24

Claude 模型在 Agent 场景中具备显著的编程与生态集成优势

1:20:55

NeurIPS 航班上约三分之一人在看 DeepSeek V3.2 论文

1:27:00

“墨西哥卷饼测试” 是检验多模态生成能力的有趣基准

1:35:26

Agent 框架带动下游生态，下游生态反哺模型训练，形成正向强化循环。

Chapters

AI 创业与 Agent 新机会

00:00

基础模型竞争和幕后故事：Google 在旧金山开 Gemini 3 Party 的同一天，OpenAI 发布 GPT-5.2

AI 进入实用工作：OpenAI 的 GDPval，Databricks 也发布了 Office QA

06:11

GDPval 在主流知识工作上表现优秀，但基础模型处理长尾问题的 gap 始终存在

14:25

Gemini 3 后，OpenAI、Anthropic、Google、各自的进展

19:09

NotebookLM 和 Nano Banana 策源地 ——Google Labs，不仅招工程师，也有主编、作家、创作者

22:15

DeemMind 研究员 Orio：Gemini 3 的秘密？预训练还有很多空间；TPU 对 Google 训练的加持

24:54

Google 的 3 层协同优化：从 TPU 到 Infra 到模型；模型和应用；数据和硬件 surface（终端）

26:34

Google TPU 已经更多对外，这对英伟达 GPU 优势的影响

30:18

回顾组织变化：DeepMind 和 Google Brain 的合并与磨合

38:02

大厂竞争中，新公司的成长：围绕 RL 与 Agent 的创业机会

垂类的机会：弥补基础模型到具体问题的差距；水平的机会：调度层、数据层、工具层都有新公司涌现

43:31

技术新趋势 —— 自我演化：RL、用 RAG 加长记忆有人尝试，但远不是成熟方案

50:17

「可训练的工具层」背后的技术变化：code 驱动工具，如 Anthropic 的 PTC（Programmatic Tool Calling）

53:32

RL 创业方向：RL 环境，RL as a Service，RL 应用

59:44

Agent 开发者挑选模型的前置条件：用什么云（比如 Azure 客户用不了 Gemini），再看云厂商折扣

1:08:47

Anthropic 的 Claude Code 已成为 Agent 核心，刚发布的 Promatic to Call 探索新开发范式

1:12:20

开源模型使用体验：Qwen 很棒；驶往 NeurIPS 的飞机上，1 / 3 人在看 DeepSeek-V3.2 技术报告

1:17:13

选择模型时，关注什么 benchmark & 为什么？

1:22:04

模型优化方向预测：加入大量 agent trace 的开源模型，更强的多模态，长程任务优化

1:29:34

连点成线：往期节目推荐

1:38:58

Transcript

Henry Yin: 还有一个有意思的点是，今年 OpenAI 其实发了三个 Benchmark GDPval，还有 PaperBench，还有一个是 Sweet Lancer。提出 Benchmark 的时候，Report 的哪个模型做得最好，都是 Anthropic 的模型做得最好。所以我对 OpenAI 的研究员，有很大的尊敬，就是他们把 Marketing 和 Research 能够分开，所以我觉得他们还是，非常非常的 Solid，我觉得 OpenAI。 Bethany Wang: Google 内...