EP97 对话常扬:LLM 盛行时代,专门的 OCR 模型还有意义吗?
硬地骇客
2025/03/25
EP97 对话常扬:LLM 盛行时代,专门的 OCR 模型还有意义吗?
EP97 对话常扬:LLM 盛行时代,专门的 OCR 模型还有意义吗?

硬地骇客
2025/03/25
本期节目邀请了文字识别领域的专家常扬老师,深入探讨 OCR 技术在大模型时代的发展与应用。从 OCR 小模型的实用性到大模型与专有模型的合作模式,再到 CNN 与 Transformer 在 OCR 任务中的表现对比,节目内容涵盖了 OCR 技术的多个关键议题。
常扬老师分析了 OCR 小模型在大模型背景下的价值,指出两者在任务泛化性上的不同定位1。他讨论了 Mistral OCR 模型的表现争议,强调大模型虽有 OCR 能力但精度不足,需依赖专有模型2。合作模式中,大模型处理信息,小模型专注感知任务以提升整体能力3。技术上,CNN 擅长局部特征提取,Transformer 适用于捕捉全局内容4。他还探讨了幻觉问题、复杂排版处理策略及场景专训提升识别率的方法5。节目提及 OCR 在 2C 与 2B 场景中的差异及其作为信息处理第一步的重要性6。最后,常扬老师比较了 OCR 与语音识别的技术差异,并分享了 RAG 技术在 OCR 和代码检索中的应用及成本控制策略7。
02:49
02:49
OCR 专用模型更适合特定任务,而大模型则具备更强的泛化能力。
04:56
04:56
大模型无法替代专有模型,因其精度不能满足专有模型场景需求
06:18
06:18
大模型与小模型合作使机器能看、能理解、能生成
09:31
09:31
CNN 像拿着放大镜看图,难以获取全部信息,对长文本处理能力有限
12:26
12:26
Transformer Based 模型在文档识别时无图像重建幻觉问题,视觉大模型则可能出现幻觉
17:01
17:01
Transformer 能更好地处理文档结构和文字关系
17:41
17:41
Transformer 能一次性理解并输出所有信息,适合端到端 OCR 任务。
24:50
24:50
数据量足够大时多种文字场景可用同一模型
27:14
27:14
客户提供的训练数据让 OCR 模型越来越好,形成技术壁垒。
33:08
33:08
部分任务可商业化,如信息抽取和基于大模型做 RAG 问答
34:49
34:49
OCR 不能包含语义,必须忠于图像,避免‘幻觉’
43:24
43:24
模型架构优化可显著改善 context 长度与计算成本问题