scripod.com
No.94 不服跑个分,AI Benchmark 指标如何解读?

Highlights

Transcript

Chapters

Pins

No.94 不服跑个分,AI Benchmark 指标如何解读?

OverviewShownote
Unprocessed episode, you can be the first!

Shownote

节目介绍 本期播客聚焦 "AI 模型跑分榜单" 这件事。 借 Claude Opus 4.7 发布放出的那张跑分表为切入点,三位主播辛宝、smart、还老师一起把 SWE-bench(含 Verified 与 Pro 三代演进)、Terminal-Bench、Humanity's Last Exam、GPQA、MMLU、OSWorld、ARC - AGI 等主流榜单挨个做了一轮 "查漏补缺式" 的科普,讲清楚每个榜单在考什么、为什么分数有高有低、以及厂商为何爱针对性刷分。横向对比了 GPT-5.4、Gemini 3...

Highlights

Chapters

Transcript

小宇宙
Open in 小宇宙