No.94 不服跑个分,AI Benchmark 指标如何解读?
Web Worker-AI程序员都爱听
Apr 20
No.94 不服跑个分,AI Benchmark 指标如何解读?
No.94 不服跑个分,AI Benchmark 指标如何解读?

Web Worker-AI程序员都爱听
Apr 20
Unprocessed episode, you can be the first!
Shownote
Shownote
节目介绍 本期播客聚焦 "AI 模型跑分榜单" 这件事。 借 Claude Opus 4.7 发布放出的那张跑分表为切入点,三位主播辛宝、smart、还老师一起把 SWE-bench(含 Verified 与 Pro 三代演进)、Terminal-Bench、Humanity's Last Exam、GPQA、MMLU、OSWorld、ARC - AGI 等主流榜单挨个做了一轮 "查漏补缺式" 的科普,讲清楚每个榜单在考什么、为什么分数有高有低、以及厂商为何爱针对性刷分。横向对比了 GPT-5.4、Gemini 3...
Highlights
Highlights
Chapters
Chapters
Transcript
Transcript

Open in 小宇宙