Highlights

Transcript

Chapters

Pins

No.94 不服跑个分，AI Benchmark 指标如何解读？

Web Worker-AI程序员都爱听

Apr 20

Overview Shownote

Highlights

Transcript

Chapters

Pins

Unprocessed episode, you can be the first!

Shownote

节目介绍本期播客聚焦 "AI 模型跑分榜单" 这件事。借 Claude Opus 4.7 发布放出的那张跑分表为切入点，三位主播辛宝、smart、还老师一起把 SWE-bench（含 Verified 与 Pro 三代演进）、Terminal-Bench、Humanity's Last Exam、GPQA、MMLU、OSWorld、ARC - AGI 等主流榜单挨个做了一轮 "查漏补缺式" 的科普，讲清楚每个榜单在考什么、为什么分数有高有低、以及厂商为何爱针对性刷分。横向对比了 GPT-5.4、Gemini 3...

Highlights

Chapters

Transcript

Open in 小宇宙