scripod.com

146: Gemini 3 翻盘背后、Agent 需要什么大模型、RL 创业机会,与前 Google 创业者、硅谷投资人聊湾区动向

晚点聊 LateTalk

Shownote

「一线开发者看到的前排变化。」 本期是 137 期 Agentic 工具链节目的嘉宾返场,Henry 和 Naomi,他们近期刚刚和普林斯顿 AI 加速创新中心联席主任,王梦迪教授,一起成立了一家新的早期 VC,MoE capital。 这次一起的也有两位之前在 Google DeepMind 和 谷歌云 Vertex AI 平台工作 7 年,刚刚创业,成立 Agent 工具层公司 Precur 的戴涵俊和 Bethany。 我请他们分享了,岁末年初,在硅谷观察到的 AI 水温,OpenAI、Goog...

Highlights

在 AI 技术快速演进的当下,一线开发者和投资人正从模型能力、工具链创新与生态协同等多个维度,重新定义智能体(Agent)的边界与可能性。本期节目汇聚了来自硅谷核心团队的实践洞察,深入探讨技术趋势背后的驱动力。
10:08
GPT-5.2 在相同成本下完成任务的能力显著提升
18:17
ChatGPT 本身可视为 Agent,连接工具后更是如此。
20:56
Gemini 3 Pro 在生成网页和交互体验上的突破使其具备强传播性
24:21
Nano Banana 的名字来自美甲上的香蕉图案,命名过程十分随意。
24:55
Google 的 Orio 在 Gemini 3 发布后表示其在 Pretraining 上有诸多突破,且未来还有改进空间。
26:34
谷歌 TPU 与模型基础设施协同设计打通整个生态系统,如今迎来爆发点
36:29
英伟达曾视 Google TPU 为劲敌,老黄要求谷歌云采购 NVIDIA GPU 以换取放缓 TPU 推广
42:10
纯粹的研究员更注重研究过程的自我突破,在谷歌内部仍可分享成果。
49:48
小厂在 AGI 实现前有机会在特定领域超越大模型
50:23
持续学习能让模型在应用场景中越用越好,Cursor 号称已实现在线强化学习。
57:43
盲测中比现有工具好 12%,显著提升 Agent 性能
1:01:49
RL 环境正从 AI 玩游戏转向具有实际经济价值的应用场景
1:08:47
企业不会轻易让数据离开当前云平台,迁移成本高且 CTO 态度保守
1:12:24
Claude 模型在 Agent 场景中具备显著的编程与生态集成优势
1:20:55
NeurIPS 航班上约三分之一人在看 DeepSeek V3.2 论文
1:27:00
“墨西哥卷饼测试” 是检验多模态生成能力的有趣基准
1:35:26
Agent 框架带动下游生态,下游生态反哺模型训练,形成正向强化循环。

Chapters

AI 创业与 Agent 新机会
00:00
基础模型竞争和幕后故事:Google 在旧金山开 Gemini 3 Party 的同一天,OpenAI 发布 GPT-5.2
AI 进入实用工作:OpenAI 的 GDPval,Databricks 也发布了 Office QA
06:11
GDPval 在主流知识工作上表现优秀,但基础模型处理长尾问题的 gap 始终存在
14:25
Gemini 3 后,OpenAI、Anthropic、Google、各自的进展
19:09
NotebookLM 和 Nano Banana 策源地 ——Google Labs,不仅招工程师,也有主编、作家、创作者
22:15
DeemMind 研究员 Orio:Gemini 3 的秘密?预训练还有很多空间;TPU 对 Google 训练的加持
24:54
Google 的 3 层协同优化:从 TPU 到 Infra 到模型;模型和应用;数据和硬件 surface(终端)
26:34
Google TPU 已经更多对外,这对英伟达 GPU 优势的影响
30:18
回顾组织变化:DeepMind 和 Google Brain 的合并与磨合
38:02
大厂竞争中,新公司的成长:围绕 RL 与 Agent 的创业机会
垂类的机会:弥补基础模型到具体问题的差距;水平的机会:调度层、数据层、工具层都有新公司涌现
43:31
技术新趋势 —— 自我演化:RL、用 RAG 加长记忆有人尝试,但远不是成熟方案
50:17
「可训练的工具层」背后的技术变化:code 驱动工具,如 Anthropic 的 PTC(Programmatic Tool Calling)
53:32
RL 创业方向:RL 环境,RL as a Service,RL 应用
59:44
Agent 开发者挑选模型的前置条件:用什么云(比如 Azure 客户用不了 Gemini),再看云厂商折扣
1:08:47
Anthropic 的 Claude Code 已成为 Agent 核心,刚发布的 Promatic to Call 探索新开发范式
1:12:20
开源模型使用体验:Qwen 很棒;驶往 NeurIPS 的飞机上,1 / 3 人在看 DeepSeek-V3.2 技术报告
1:17:13
选择模型时,关注什么 benchmark & 为什么?
1:22:04
模型优化方向预测:加入大量 agent trace 的开源模型,更强的多模态,长程任务优化
1:29:34
连点成线:往期节目推荐
1:38:58

Transcript

Henry Yin: 还有一个有意思的点是,今年 OpenAI 其实发了三个 Benchmark GDPval,还有 PaperBench,还有一个是 Sweet Lancer。提出 Benchmark 的时候,Report 的哪个模型做得最好,都是 Anthropic 的模型做得最好。所以我对 OpenAI 的研究员,有很大的尊敬,就是他们把 Marketing 和 Research 能够分开,所以我觉得他们还是,非常非常的 Solid,我觉得 OpenAI。 Bethany Wang: Google 内...