EP97 对话常扬:LLM 盛行时代,专门的 OCR 模型还有意义吗?
硬地骇客
2025/03/25
EP97 对话常扬:LLM 盛行时代,专门的 OCR 模型还有意义吗?
EP97 对话常扬:LLM 盛行时代,专门的 OCR 模型还有意义吗?

硬地骇客
2025/03/25
Shownote
Shownote
今天特邀文字识别领域专家 常扬 老师做客,他将分享自己多年来在 OCR 技术领域的经验和心得。常扬老师将比较大型语言模型与专用模型,分析 Mistral OCR 模型的优缺点,对比 CNN 和 Transformer 在 OCR 任务中的表现。还将分享其团队在信息抽取和 RAG 技术应用方面的实践经验,以及如何根据不同场景选择合适的 OCR 模型和技术路线。如果你对人工智能、文字识别或信息抽取技术感兴趣,欢迎收听本期节目。 更多内容信息和时间线参考下文的硬地笔记,欢迎收听本期节目。 嘉宾介绍 常扬:专注分享 AI 人工智能领域技术...
Highlights
Highlights
本期节目邀请了文字识别领域的专家常扬老师,深入探讨 OCR 技术在大模型时代的发展与应用。从 OCR 小模型的实用性到大模型与专有模型的合作模式,再到 CNN 与 Transformer 在 OCR 任务中的表现对比,节目内容涵盖了 OCR 技术的多个关键议题。
Chapters
Chapters
硬地笔记
LLM 时代,OCR 小模型还有用吗?
00:00大模型与专有模型的区分及 Mistral OCR 的 SOTA 争议
03:20大模型和小模型的合作模式: 能力而非算力的协同
06:12CNN 与 Transformer,谁在 OCR 中更胜一筹?
08:10Transformer 在 OCR 中的 “幻觉” 究竟是什么?
12:20CNN-based OCR 模型处理复杂排版的策略
14:23如何通过场景专训提升 OCR 模型的识别率?
17:41OCR 模型的构建策略: 单模型 vs. 多模型
21:18在 2C 与 2B 中,OCR 技术的应用有哪些不同?
27:14为什么 OCR 是信息处理的关键第一步?
30:26OCR 与语音识别,这两个技术的根本差异是什么?
33:38RAG 技术在 OCR 和代码检索中的应用及成本控制
38:10Transcript
Transcript
Sato: 大家好,欢迎收听《硬地骇客》, 我是 Sato, 我是异象,我是龟龟。本期节目由 Podwise 赞助播出,Podwise 是一款为播客听众制作的 AI 学习软件,产品的 slogan 是 Read Before Listen。Podwise 通过 AI 对播客内容进行转录、提取、总结、分析等一系列操作,帮你掰开了揉碎了硬核的播客内容。同时与 Notion、Readwise 等平台的打通,嵌入知识管理工作流。协助您的其他包括新闻,newsletter,blog 的内容,帮您打造第二大道。Podw...

Open in 小宇宙