EP97 对话常扬：LLM 盛行时代，专门的 OCR 模型还有意义吗？

硬地骇客

2025/03/25

Overview Shownote Highlights Transcript Chapters Pins

本期节目邀请了文字识别领域的专家常扬老师，深入探讨 OCR 技术在大模型时代的发展与应用。从 OCR 小模型的实用性到大模型与专有模型的合作模式，再到 CNN 与 Transformer 在 OCR 任务中的表现对比，节目内容涵盖了 OCR 技术的多个关键议题。

常扬老师分析了 OCR 小模型在大模型背景下的价值，指出两者在任务泛化性上的不同定位1。他讨论了 Mistral OCR 模型的表现争议，强调大模型虽有 OCR 能力但精度不足，需依赖专有模型2。合作模式中，大模型处理信息，小模型专注感知任务以提升整体能力3。技术上，CNN 擅长局部特征提取，Transformer 适用于捕捉全局内容4。他还探讨了幻觉问题、复杂排版处理策略及场景专训提升识别率的方法5。节目提及 OCR 在 2C 与 2B 场景中的差异及其作为信息处理第一步的重要性6。最后，常扬老师比较了 OCR 与语音识别的技术差异，并分享了 RAG 技术在 OCR 和代码检索中的应用及成本控制策略7。