之前有一篇文章《处理数百万份 PDF,以及为何 Gemini 2.0 能改变一切 [译]》讲借助多模态的语言模型例如 Gemini 2.0 就可以低成本进行复杂 PDF 的解析。
今天又看到一篇《为什么用多模态语言模型对 PDF 做 OCR 表现并没有那么好?》,讲实际上面对现实场景,还是有很多细节上的问题,以及安全上的风险,比如说语言模型会因为图像分割时的问题导致识别错误,或者因为语言模型的特点,“自作聪明”的把一些拼写修改,把图片中的数学题给解答出来,甚至还可能因为一些“恶意”的提示词导致结果被污染。
就我个人的使用经历来说,用多模态语言模型做 OCR 还是挺简单方便,但确实有“幻觉”,需要人工校对。这篇文章的很多技术点都讲的不错,另外文章里面还有一段如何提取 PDF 表格的 Prompt 也可以作为参考。
两篇文章链接如下:
Ingesting Millions of PDFs and why Gemini 2.0 Changes Everything
网页链接
Why LLMs Suck at OCR
网页链接
翻译:
百万级 PDF 解析攻坚战:Gemini 2.0突破传统RAG系统效能天花板 [译]
为什么用多模态语言模型对 PDF 做 OCR 表现并没有那么好?
今天又看到一篇《为什么用多模态语言模型对 PDF 做 OCR 表现并没有那么好?》,讲实际上面对现实场景,还是有很多细节上的问题,以及安全上的风险,比如说语言模型会因为图像分割时的问题导致识别错误,或者因为语言模型的特点,“自作聪明”的把一些拼写修改,把图片中的数学题给解答出来,甚至还可能因为一些“恶意”的提示词导致结果被污染。
就我个人的使用经历来说,用多模态语言模型做 OCR 还是挺简单方便,但确实有“幻觉”,需要人工校对。这篇文章的很多技术点都讲的不错,另外文章里面还有一段如何提取 PDF 表格的 Prompt 也可以作为参考。
两篇文章链接如下:
Ingesting Millions of PDFs and why Gemini 2.0 Changes Everything
网页链接
Why LLMs Suck at OCR
网页链接
翻译:
百万级 PDF 解析攻坚战:Gemini 2.0突破传统RAG系统效能天花板 [译]
为什么用多模态语言模型对 PDF 做 OCR 表现并没有那么好?