scripod.com

EP97 对话常扬：LLM盛行时代，专门的OCR模型还有意义吗？

Overview

Shownote

Highlights

Transcript

Chapters

Pins

EP97 对话常扬：LLM 盛行时代，专门的 OCR 模型还有意义吗？

硬地骇客

2025/03/25

EP97 对话常扬：LLM 盛行时代，专门的 OCR 模型还有意义吗？

EP97 对话常扬：LLM 盛行时代，专门的 OCR 模型还有意义吗？

硬地骇客

硬地骇客

2025/03/25

Overview Shownote Highlights Transcript Chapters Pins

Shownote

今天特邀文字识别领域专家常扬老师做客，他将分享自己多年来在 OCR 技术领域的经验和心得。常扬老师将比较大型语言模型与专用模型，分析 Mistral OCR 模型的优缺点，对比 CNN 和 Transformer 在 OCR 任务中的表现。还将分享其团队在信息抽取和 RAG 技术应用方面的实践经验，以及如何根据不同场景选择合适的 OCR 模型和技术路线。如果你对人工智能、文字识别或信息抽取技术感兴趣，欢迎收听本期节目。更多内容信息和时间线参考下文的硬地笔记，欢迎收听本期节目。嘉宾介绍常扬：专注分享 AI 人工智能领域技术...

Highlights

本期节目邀请了文字识别领域的专家常扬老师，深入探讨 OCR 技术在大模型时代的发展与应用。从 OCR 小模型的实用性到大模型与专有模型的合作模式，再到 CNN 与 Transformer 在 OCR 任务中的表现对比，节目内容涵盖了 OCR 技术的多个关键议题。

02:49

OCR 专用模型更适合特定任务，而大模型则具备更强的泛化能力。

04:56

大模型无法替代专有模型，因其精度不能满足专有模型场景需求

06:18

大模型与小模型合作使机器能看、能理解、能生成

09:31

CNN 像拿着放大镜看图，难以获取全部信息，对长文本处理能力有限

12:26

Transformer Based 模型在文档识别时无图像重建幻觉问题，视觉大模型则可能出现幻觉

17:01

Transformer 能更好地处理文档结构和文字关系

17:41

Transformer 能一次性理解并输出所有信息，适合端到端 OCR 任务。

24:50

数据量足够大时多种文字场景可用同一模型

27:14

客户提供的训练数据让 OCR 模型越来越好，形成技术壁垒。

33:08

部分任务可商业化，如信息抽取和基于大模型做 RAG 问答

34:49

OCR 不能包含语义，必须忠于图像，避免‘幻觉’

43:24

模型架构优化可显著改善 context 长度与计算成本问题

Chapters

硬地笔记

LLM 时代，OCR 小模型还有用吗？

00:00

大模型与专有模型的区分及 Mistral OCR 的 SOTA 争议

03:20

大模型和小模型的合作模式: 能力而非算力的协同

06:12

CNN 与 Transformer，谁在 OCR 中更胜一筹？

08:10

Transformer 在 OCR 中的 “幻觉” 究竟是什么？

12:20

CNN-based OCR 模型处理复杂排版的策略

14:23

如何通过场景专训提升 OCR 模型的识别率？

17:41

OCR 模型的构建策略: 单模型 vs. 多模型

21:18

在 2C 与 2B 中，OCR 技术的应用有哪些不同？

27:14

为什么 OCR 是信息处理的关键第一步？

30:26

OCR 与语音识别，这两个技术的根本差异是什么？

33:38

RAG 技术在 OCR 和代码检索中的应用及成本控制

38:10

Transcript

Sato: 大家好，欢迎收听《硬地骇客》, 我是 Sato, 我是异象，我是龟龟。本期节目由 Podwise 赞助播出，Podwise 是一款为播客听众制作的 AI 学习软件，产品的 slogan 是 Read Before Listen。Podwise 通过 AI 对播客内容进行转录、提取、总结、分析等一系列操作，帮你掰开了揉碎了硬核的播客内容。同时与 Notion、Readwise 等平台的打通，嵌入知识管理工作流。协助您的其他包括新闻，newsletter，blog 的内容，帮您打造第二大道。Podw...

小宇宙

Open in 小宇宙