scripod.com

EP97 对话常扬:LLM 盛行时代,专门的 OCR 模型还有意义吗?

硬地骇客

2025/03/25
硬地骇客

硬地骇客

2025/03/25

Shownote

今天特邀文字识别领域专家 常扬 老师做客,他将分享自己多年来在 OCR 技术领域的经验和心得。常扬老师将比较大型语言模型与专用模型,分析 Mistral OCR 模型的优缺点,对比 CNN 和 Transformer 在 OCR 任务中的表现。还将分享其团队在信息抽取和 RAG 技术应用方面的实践经验,以及如何根据不同场景选择合适的 OCR 模型和技术路线。如果你对人工智能、文字识别或信息抽取技术感兴趣,欢迎收听本期节目。 更多内容信息和时间线参考下文的硬地笔记,欢迎收听本期节目。 嘉宾介绍 常扬:专注分享 AI 人工智能领域技术...

Highlights

本期节目邀请了文字识别领域的专家常扬老师,深入探讨 OCR 技术在大模型时代的发展与应用。从 OCR 小模型的实用性到大模型与专有模型的合作模式,再到 CNN 与 Transformer 在 OCR 任务中的表现对比,节目内容涵盖了 OCR 技术的多个关键议题。
02:49
OCR 专用模型更适合特定任务,而大模型则具备更强的泛化能力。
04:56
大模型无法替代专有模型,因其精度不能满足专有模型场景需求
06:18
大模型与小模型合作使机器能看、能理解、能生成
09:31
CNN 像拿着放大镜看图,难以获取全部信息,对长文本处理能力有限
12:26
Transformer Based 模型在文档识别时无图像重建幻觉问题,视觉大模型则可能出现幻觉
17:01
Transformer 能更好地处理文档结构和文字关系
17:41
Transformer 能一次性理解并输出所有信息,适合端到端 OCR 任务。
24:50
数据量足够大时多种文字场景可用同一模型
27:14
客户提供的训练数据让 OCR 模型越来越好,形成技术壁垒。
33:08
部分任务可商业化,如信息抽取和基于大模型做 RAG 问答
34:49
OCR 不能包含语义,必须忠于图像,避免‘幻觉’
43:24
模型架构优化可显著改善 context 长度与计算成本问题

Chapters

硬地笔记
LLM 时代,OCR 小模型还有用吗?
00:00
大模型与专有模型的区分及 Mistral OCR 的 SOTA 争议
03:20
大模型和小模型的合作模式: 能力而非算力的协同
06:12
CNN 与 Transformer,谁在 OCR 中更胜一筹?
08:10
Transformer 在 OCR 中的 “幻觉” 究竟是什么?
12:20
CNN-based OCR 模型处理复杂排版的策略
14:23
如何通过场景专训提升 OCR 模型的识别率?
17:41
OCR 模型的构建策略: 单模型 vs. 多模型
21:18
在 2C 与 2B 中,OCR 技术的应用有哪些不同?
27:14
为什么 OCR 是信息处理的关键第一步?
30:26
OCR 与语音识别,这两个技术的根本差异是什么?
33:38
RAG 技术在 OCR 和代码检索中的应用及成本控制
38:10

Transcript

Sato: 大家好,欢迎收听《硬地骇客》, 我是 Sato, 我是异象,我是龟龟。本期节目由 Podwise 赞助播出,Podwise 是一款为播客听众制作的 AI 学习软件,产品的 slogan 是 Read Before Listen。Podwise 通过 AI 对播客内容进行转录、提取、总结、分析等一系列操作,帮你掰开了揉碎了硬核的播客内容。同时与 Notion、Readwise 等平台的打通,嵌入知识管理工作流。协助您的其他包括新闻,newsletter,blog 的内容,帮您打造第二大道。Podw...
小宇宙
Open in 小宇宙