【PDF识别】总结PDF文本内容与表格提取的方法

一、前言

在数字化办公的浪潮中，PDF文件以其格式稳定、兼容性强等优点，成为文档存储与传输的重要载体。然而，当我们需要从PDF中提取文本和表格进行进一步处理或分析时，却常常面临诸多挑战。

不同的PDF文件类型、复杂的排版布局、扫描版PDF的图像识别等问题，都可能成为提取过程中的“拦路虎”。本文将深入探讨多种PDF文本与表格提取方法，结合实际代码示例，为大家呈现一份全面的PDF提取指南。

二、文本提取方法

1. pdfplumber：精准提取文本与表格

pdfplumber是一个功能强大的Python库，尤其在处理包含表格的PDF文件时表现出色。通过pdfplumber，我们不仅能提取文本，还能对表格进行精确解析。

import pdfplumberpdf_path = "你的PDF文件路径"with pdfplumber.open(pdf_path) as pdf:text = ""for page in pdf.pages:page_text = page.extract_text()text += page_textprint(page_text)

2. fitz（PyMuPDF）：快速提取文本与图像

fitz，即PyMuPDF，以其高效性著称。它不仅能够快速提取PDF中的文本，还能处理PDF中的图像内容。

import fitzdoc = fitz.open(pdf_path)
text = ""
for page in doc:page_text = page.get_text()text += page_textprint(page_text)

3. PyPDF2：简单文本提取的利器

PyPDF2是一个广为人知的PDF处理库，虽然其功能相对基础，但对于简单的文本提取任务已经足够。


import PyPDF2def extract_text_from_pdf(pdf_path):pdfReader = PyPDF2.PdfReader(pdf_path)text = ""for page_num in range(len(pdfReader.pages)):page = pdfReader.pages[page_num]text += page.extract_text()return textprint(extract_text_from_pdf(pdf_path))

4. pdfminer：深度自定义提取逻辑

pdfminer是一个高度可定制的PDF处理库，适用于需要深度自定义提取逻辑的场景。

from pdfminer.high_level import extract_textdef extract_text_from_pdf(pdf_path):text = extract_text(pdf_path)return textprint(extract_text_from_pdf(pdf_path))

5. pdfquery：提取特定区域文本

pdfquery通过坐标定位，能够精确提取指定区域的文本内容。

import pdfquerydef extract_specific_text_from_pdf(pdf_path):pdf = pdfquery.PDFQuery(pdf_path)pdf.load()text = pdf.pq('LTTextLineHorizontal:in_bbox("100, 500, 400, 600")').text()return textprint(extract_specific_text_from_pdf(pdf_path))

6. pytesseract与PaddleOCR：攻克扫描版PDF

对于扫描版PDF或图像型PDF，可以使用pytesseract和PaddleOCR进行OCR识别。
pytesseract：

from pdf2image import convert_from_path
import pytesseractdef extract_text_from_scanned_pdf(pdf_path):pages = convert_from_path(pdf_path)text = ""for page in pages:text += pytesseract.image_to_string(page, lang='chi_sim') + "\n"return textprint(extract_text_from_scanned_pdf(pdf_path))

PaddleOCR

from pdf2image import convert_from_path
from paddleocr import PaddleOCRdef extract_text_from_scanned_pdf(pdf_path, lang='ch'):ocr = PaddleOCR(use_angle_cls=True, lang=lang)pages = convert_from_path(pdf_path)text = ""for page in pages:result = ocr.ocr(page, cls=True)for idx in range(len(result)):res = result[idx]for line in res:text += line[1][0] + "\n"return textprint(extract_text_from_scanned_pdf(pdf_path))

7. aspose.pdf：商业应用的高质量选择

aspose.pdf是一个商业库，提供了高质量的文本和表格提取功能。

from aspose.pdf import Document
from aspose.pdf.text import TextFragmentAbsorberdef extract_text_from_pdf(pdf_path):pdf_doc = Document(pdf_path)absorber = TextFragmentAbsorber()text = ""for page in pdf_doc.pages:page.accept(absorber)for fragment in absorber.text_fragments:text += fragment.text + "\n"absorber.text_fragments.clear()return textprint(extract_text_from_pdf(pdf_path))

8. textract：简化文本提取流程

textract是一个简洁高效的文本提取库，能够快速实现文本提取功能。

import textractdef extract_text_from_pdf(pdf_path):text = textract.process(pdf_path, method='pdfminer')print("-----------textract--------------------")print(text.decode('utf-8'))return text.decode('utf-8')print(extract_text_from_pdf(pdf_path))

三、表格提取方法

1. pdfplumber：精确表格提取

pdfplumber不仅擅长文本提取，还能精确提取PDF中的表格数据。

import pdfplumberwith pdfplumber.open(pdf_path) as pdf:for page in pdf.pages:table = page.extract_table()if table:for row in table:print(row)

2. camelot：智能表格提取

camelot是一个专门用于从PDF中提取表格数据的Python库，它能够智能地识别PDF中的表格结构。

import camelot
import pandas as pddef extract_tables_from_pdf(pdf_path):tables = camelot.read_pdf(pdf_path, flavor='stream')combined_df = pd.concat([table.df for table in tables])print("-----------camelot--------------------")return combined_dftables_df = extract_tables_from_pdf(pdf_path)
print(tables_df)

3. aspose.pdf：高质量表格提取

aspose.pdf库也提供了表格提取的功能，适合商业应用。

from aspose.pdf import Document
from aspose.pdf.text import TextFragmentAbsorberdef extract_tables_from_pdf(pdf_path):pdf_doc = Document(pdf_path)absorber = TextFragmentAbsorber()tables = []for page in pdf_doc.pages:page.accept(absorber)for fragment in absorber.text_fragments:# 处理表格数据passreturn tablesprint(extract_tables_from_pdf(pdf_path))