欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 社会 > 十大PDF解析工具在不同文档类别中的比较研究

十大PDF解析工具在不同文档类别中的比较研究

2025/5/4 16:11:25 来源:https://blog.csdn.net/yjh_SE007/article/details/147164737  浏览:    关键词:十大PDF解析工具在不同文档类别中的比较研究

十大PDF解析工具总结

PDF解析对于包括文档分类、信息提取和检索在内的多种自然语言处理任务至关重要,尤其是RAG的背景下。尽管存在各种PDF解析工具,但它们在不同文档类型中的有效性仍缺乏充分研究,尤其是超出学术文档范畴。通过使用DocLayNet数据集,比较10款流行的PDF解析工具在6种文档类别中的表现,以填补这一空白。这些工具包括PyPDF、pdfminer.six、PyMuPDF、pdfplumber、pypdflum2、Unstructured、Tabula、Camelot以及基于深度学习的工具Nougat和Table Transformer(TATR)。

对于基于深度学习的相关技术方法,笔者在前期介绍了完整的技术链路,可以参考《文档智能专栏(点击跳转)》

对于对pdf解析质量要求不高并且要求速度比较快的场景,基于规则引擎的相关pdf parser工具可以依旧满足相关业务场景,那么该如何选择pdf解析工具呢?

pdf解析的挑战

  • 复杂性:PDF解析面临多个挑战,包括单词识别、词序保持、段落完整性以及表格提取等。这些挑战要求解析工具能够准确地识别和处理文档中的各种元素。
  • 技术需求:PDF解析方法可以分为基于规则的方法和基于深度学习的方法。基于规则的方法通常在计算效率和部署速度上具有优势,而基于学习的方法在处理复杂文档时表现出色。

本文通过比较10种流行的PDF解析工具在6种不同文档类别上的表现,提供对工具性能的全面评估。供参考。

评估方法

常见公开评测数据集

评测数据集

DocLayNet 是一个包含约80,000个文档页面的大型数据集,文档被标注为11种不同的元素(如脚注、公式、列表项、页脚、页眉、图片、节头、表格、文本和标题)。这些文档分为六个不同的类别:财务报告、手册、科学文章、法律法规、专利和政府招标。

类别分布情况

文档主要用英语标注(95%),少量用德语(2.5%)、法语(1%)和日语(1%)。为了确保标注的高质量和可靠性,大约7,059个文档进行了双重标注,1,591个文档进行了三重标注。

评估指标

并使用多种评估指标进行比较,包括F1分数、BLEU分数和局部对齐分数。

在文档中,评估策略特别关注于文本提取的质量,尤其是当涉及到复杂的文档结构和内容时。以下是如何结合具体的公式和评估指标来详细讲解评估策略:

文本提取的评估策略

1.Levenshtein 相似性

L s ( s 1 , s 2 ) = 1 − L d ( s 1 , s 2 ) max ⁡ ( l 1 , l 2 ) L_s(s_1, s_2) = 1 - \frac{L_d(s_1, s_2)}{\max(l_1, l_2)} Ls(s1,s2)=1max(l1,l2)Ld(s1,s2)

2.F1 分数

3.BLEU 分数

B L E U = B P ⋅ exp ⁡ ( ∑ n = 1 N w n log ⁡ p n ) BLEU = BP \cdot \exp\left(\sum_{n=1}^{N} w_n \log p_n\right) BLEU=BPexp(n=1Nwnlogpn)

4.局部对齐分数

局部对齐分数用于评估文本提取的整体质量,特别是在处理复杂布局和段落结构时。局部对齐通过寻找两个字符串中最相似的子串来实现,使用匹配得分、不匹配和间隙惩罚来计算相似性。

表格检测评价指标

使用交并比(IoU)来比较解析器提取的表格与GT表格的相似性。如果解析器不提供边界框信息,则使用Jaccard系数计算检测的精确度和召回率。

IoU = ∣ A ∩ B ∣ ∣ A ∪ B ∣ \text{IoU} = \frac{|A \cap B|}{|A \cup B|} IoU=ABAB

评测工具

工具名称功能技术输出格式特点
PyPDF提取文本、图像和元数据基于规则 (RB)TXT成熟的纯 Python 库,处理多种 PDF 操作
pdfminer.six提取文本、图像、目录、字体大小基于规则TXT、HTML、hOCR、JPG多功能,支持 CJK 语言和垂直书写
PDFPlumber提取文本和表格基于规则 (基于 pdfminer)TXT、HTML、hOCR、JPG提供可视化调试工具,提取过程便捷
PyMuPDF提取文本、表格和图像基于规则 (MuPDF),可选 OCRTXT、HTML、SVG、JSONPython 绑定,处理复杂文档布局
pypdfium2提取文本基于规则TXT轻量级库,专注文本提取
Unstructured预处理和摄取图像及文本文档基于规则,支持 OCRTXT支持元素级文本和表格提取
Tabula提取表格基于规则DataFrame、CSV、JSONPython 包装器,使用 tabula-java
Camelot提取表格基于规则DataFrame、CSV、JSON、HTML灵活配置,支持流模式和格子模式
Nougat提取文本基于 TransformerMarkdown深度学习模型,专为学术文档训练
Table Transformer (TATR)检测表格基于 Transformer图像对象检测模型,训练于 PubTables-1M 等

评测结论

种PDF解析库进行了全面比较

  • 文本提取结论
    在财务、招标、法律法规和手册类别中,大多数工具表现较好,PyMuPDF和pypdfium在这些类别中表现尤为突出。在科学和专利类别中,所有工具的表现均有所下降。PyMuPDF和pypdfium在专利类别中表现相对较好,但科学类别仍然是一个挑战。Nougat作为一个基于视觉变换器的模型,在科学文档的文本提取中表现出色。Nougat在科学文档中表现优于所有基于规则的工具。

  • 表格检测结论
    评估了四种基于规则的PDF表格提取工具(Camelot、pdfplumber、PyMuPDF、Tabula)和一个基于Transformer的模型(TATR)在表格检测任务中的表现。规则工具在特定文档类型中表现良好,但在其他类别中表现不佳。Camelot在政府招标类别中表现最佳,Tabula在手册、科学和专利类别中表现较好。TATR在所有类别中表现出较高的召回率和一致性。在科学、财务和招标类别中,TATR的召回率较高,显示出其在处理复杂表格结构时的优势。

总结

其实,全文看下来,这个评测的粒度还是比较粗的,但是其中的对于基于规则的pdf parser工具结论还是值得看一看的。在具体的业务场景中,选择合适的解析工具需要考虑文档类型和具体任务的需求。

参考文献:A Comparative Study of PDF Parsing Tools Across Diverse
Document Categories,https://arxiv.org/pdf/2410.09871v2

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词