scripod.com

AI 下半场:聊透 Benchmark 与 Evaluation | 对谈前 Kimi 产品经理丁丁

42章经

2025/05/05
42章经

42章经

2025/05/05

Shownote

活动预告:5 月 24 日,我们会请到丁丁和 Fellou 创始人谢扬办一场线上活动,大家记得翻到 shownotes 末尾查看报名信息! 像 RL 这个概念一样,Benchmark 和 Evaluation 也是做 AI 的人经常挂在嘴边的词,但到底该怎么理解这个概念,该如何正确的设定这些问题和数值呢? 正巧前不久 OpenAI 研究员姚顺雨的那篇《AI 即将进入下半场》特别火,他核心讲的就是「我们当下已经进入了 AI 的第二阶段 —— 从解决问题转向定义问题,评估的意义会超过训练本身。而这其中,评估最关...

Highlights

本期播客围绕 AI 模型的评估标准与未来发展方向展开讨论,特别聚焦于 Benchmark 和 Evaluation 的重要性。通过前 Kimi 产品经理丁丁的分享,听众可以深入了解如何在实际场景中重新设计实用的评估标准,并探索从古典产品转型为 AI 产品经理的心得。
00:19
现有 Evaluation Benchmark 可能需更新以适应 AI 模型新阶段
01:27
现阶段定义问题比刷 benchmark 分更重要
03:24
过去因基础模型能力不足,提示词工程很重要,如今模型能力提升使得提示词只需更简单清晰描述
05:52
一味追求 DAU 对提升模型能力可能无帮助
07:07
用户输入噪音大,高质量数据需与模型能力匹配
09:37
资源不足时仍想承接事务似乎是古典产品经理的通病
13:47
模型评估很难制定所有人共识且百分百正确的评价标准
16:59
好的 Benchmark 需要结合业务理解不断演进
19:29
Benchmark 与用户指标应强关联,否则需调整
23:22
糟糕的 benchmark 是过于简单或单一维度
24:23
基础模型能力越强泛化能力越好
26:51
模型应先倾听用户情绪,再考虑解决方案
29:34
Benchmark 不应公开,以防影响训练或被黑客利用
30:11
相同点是懂用户,不同点在于业务流程的抽象能力
31:52
把想做的事先用 AI 做一遍,了解其能力边界和发展趋势
33:38
AI 产品经理需养成看论文的习惯,但理解深度因角色而异
39:17
产品价值观决定了设计方向,微信坚持不为指标牺牲调性
40:00
偏好有初创或小公司端到端经验的全栈候选人

Chapters

AI 模型的评价与未来方向
00:00
时光机
进入 AI 下半场,「重新定义 Benchmark」比「刷榜提分」更关键
01:27
回顾 AI 上半场,国内大模型公司的发展重心历经了哪些变化?
03:23
一味追求 DAU 是一种偷懒的经验主义
05:51
数据固然重要,但更多的用户数据 ≠ 更好的模型智能
07:07
如果你是梁文锋,你要不要承接这波泼天的用户?
09:28
Evaluation 和 Benchmark 是拉开模型差距的一大关键
09:59
对于没有标准答案的问题,该怎么制定 Benchmark?
14:40
怎么衡量 Benchmark 的好坏?
17:55
创业公司的 Benchmark 有多少道题比较合理?
22:14
让模型「突出长板」好,还是「全面均衡」好?
24:23
以 C.AI 类产品为例,示范一下该怎么设计 Benchmark
25:42
Benchmark 是团队的核心机密,算法同学都不应该告诉
29:28
AI 产品经理和古典产品经理有什么异同?
30:07
怎么更好地理解模型边界?
31:49
未来每个人都要具备全栈能力
33:38
做微信产品积累下来的 knowhow
35:38
分享一些招 AI 产品经理的标准
39:52

Transcript

曲凯: 我们今天很开心请到丁丁,因为丁丁之前,从 24 年初开始加入 Kimi。然后那个时候是 Kimi 的 APP 刚上线。 丁丁: 对,相当于是去了以后上线了 Kimi 的 APP。 曲凯: 然后就是一直做 Kimi 的 APP。然后做了大概一年多的时间。 丁丁: 也算是 Kimi 的早期的产品同学之一。 曲凯: 然后最近是刚出来,然后我们可以从最近比较火的一篇文章,先切入进来。正好通过那篇文章聊下,模型的上下半场的问题。就是前两天,OpenAI 的那个人,就把他写了一篇文章,然后标题大概就是 AI 的...
小宇宙
Open in 小宇宙