scripod.com

AI 下半场：聊透 Benchmark 与 Evaluation | 对谈前 Kimi 产品经理丁丁

Overview

Shownote

Highlights

Transcript

Chapters

Pins

AI 下半场：聊透 Benchmark 与 Evaluation | 对谈前 Kimi 产品经理丁丁

42章经

2025/05/05

AI 下半场：聊透 Benchmark 与 Evaluation | 对谈前 Kimi 产品经理丁丁

AI 下半场：聊透 Benchmark 与 Evaluation | 对谈前 Kimi 产品经理丁丁

42章经

42章经

2025/05/05

Overview Shownote Highlights Transcript Chapters Pins

Shownote

活动预告：5 月 24 日，我们会请到丁丁和 Fellou 创始人谢扬办一场线上活动，大家记得翻到 shownotes 末尾查看报名信息！像 RL 这个概念一样，Benchmark 和 Evaluation 也是做 AI 的人经常挂在嘴边的词，但到底该怎么理解这个概念，该如何正确的设定这些问题和数值呢？正巧前不久 OpenAI 研究员姚顺雨的那篇《AI 即将进入下半场》特别火，他核心讲的就是「我们当下已经进入了 AI 的第二阶段 —— 从解决问题转向定义问题，评估的意义会超过训练本身。而这其中，评估最关...

Highlights

本期播客围绕 AI 模型的评估标准与未来发展方向展开讨论，特别聚焦于 Benchmark 和 Evaluation 的重要性。通过前 Kimi 产品经理丁丁的分享，听众可以深入了解如何在实际场景中重新设计实用的评估标准，并探索从古典产品转型为 AI 产品经理的心得。

00:19

现有 Evaluation Benchmark 可能需更新以适应 AI 模型新阶段

01:27

现阶段定义问题比刷 benchmark 分更重要

03:24

过去因基础模型能力不足，提示词工程很重要，如今模型能力提升使得提示词只需更简单清晰描述

05:52

一味追求 DAU 对提升模型能力可能无帮助

07:07

用户输入噪音大，高质量数据需与模型能力匹配

09:37

资源不足时仍想承接事务似乎是古典产品经理的通病

13:47

模型评估很难制定所有人共识且百分百正确的评价标准

16:59

好的 Benchmark 需要结合业务理解不断演进

19:29

Benchmark 与用户指标应强关联，否则需调整

23:22

糟糕的 benchmark 是过于简单或单一维度

24:23

基础模型能力越强泛化能力越好

26:51

模型应先倾听用户情绪，再考虑解决方案

29:34

Benchmark 不应公开，以防影响训练或被黑客利用

30:11

相同点是懂用户，不同点在于业务流程的抽象能力

31:52

把想做的事先用 AI 做一遍，了解其能力边界和发展趋势

33:38

AI 产品经理需养成看论文的习惯，但理解深度因角色而异

39:17

产品价值观决定了设计方向，微信坚持不为指标牺牲调性

40:00

偏好有初创或小公司端到端经验的全栈候选人

Chapters

AI 模型的评价与未来方向

00:00

时光机

进入 AI 下半场，「重新定义 Benchmark」比「刷榜提分」更关键

01:27

回顾 AI 上半场，国内大模型公司的发展重心历经了哪些变化？

03:23

一味追求 DAU 是一种偷懒的经验主义

05:51

数据固然重要，但更多的用户数据 ≠ 更好的模型智能

07:07

如果你是梁文锋，你要不要承接这波泼天的用户？

09:28

Evaluation 和 Benchmark 是拉开模型差距的一大关键

09:59

对于没有标准答案的问题，该怎么制定 Benchmark？

14:40

怎么衡量 Benchmark 的好坏？

17:55

创业公司的 Benchmark 有多少道题比较合理？

22:14

让模型「突出长板」好，还是「全面均衡」好？

24:23

以 C.AI 类产品为例，示范一下该怎么设计 Benchmark

25:42

Benchmark 是团队的核心机密，算法同学都不应该告诉

29:28

AI 产品经理和古典产品经理有什么异同？

30:07

怎么更好地理解模型边界？

31:49

未来每个人都要具备全栈能力

33:38

做微信产品积累下来的 knowhow

35:38

分享一些招 AI 产品经理的标准

39:52

Transcript

曲凯: 我们今天很开心请到丁丁，因为丁丁之前，从 24 年初开始加入 Kimi。然后那个时候是 Kimi 的 APP 刚上线。丁丁: 对，相当于是去了以后上线了 Kimi 的 APP。曲凯: 然后就是一直做 Kimi 的 APP。然后做了大概一年多的时间。丁丁: 也算是 Kimi 的早期的产品同学之一。曲凯: 然后最近是刚出来，然后我们可以从最近比较火的一篇文章，先切入进来。正好通过那篇文章聊下，模型的上下半场的问题。就是前两天，OpenAI 的那个人，就把他写了一篇文章，然后标题大概就是 AI 的...

小宇宙

Open in 小宇宙