欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 房产 > 家装 > springboot+tabula解析pdf中的表格数据

springboot+tabula解析pdf中的表格数据

2025/5/5 22:40:33 来源:https://blog.csdn.net/weixin_39311781/article/details/147148393  浏览:    关键词:springboot+tabula解析pdf中的表格数据

场景

在日常业务需求中,往往会遇到解析pdf数据获取文本的需求,常见的做法是使用 pdfbox 来做,但是它只适合做一些简单的段落文本解析,无法处理表格这种复杂类型,因为单元格中的文本有换行的情况,无法对应到我们业务具体的属性上面去。而 tabula 在它的基础上做了表格的特殊处理,使用案例如下:
在这里插入图片描述

引入依赖

<!-- PDF解析,内含pdfbox -->
<dependency><groupId>technology.tabula</groupId><artifactId>tabula</artifactId><version>1.0.5</version>
</dependency><dependency><groupId>com.alibaba</groupId><artifactId>fastjson</artifactId><version>2.0.53</version>
</dependency>

代码实现

package net.lab1024.sa.admin.util;import com.alibaba.fastjson.JSONArray;
import com.alibaba.fastjson.JSONObject;
import lombok.extern.slf4j.Slf4j;
import org.apache.pdfbox.pdmodel.PDDocument;
import technology.tabula.*;
import technology.tabula.extractors.SpreadsheetExtractionAlgorithm;import java.io.File;
import java.util.ArrayList;
import java.util.List;@Slf4j
public class PdfUtil {public static void main(String[] args) {JSONArray jsonArray = readPdfTable("C:\\Users\\admin\\Desktop\\xxx.pdf");System.out.println(jsonArray);}/*** 解析pdf的表格** @param filePath* @return*/public static JSONArray readPdfTable(String filePath) {// 表头// todo 这里自己先定义了,使用时可读取表头的中文作为key或者将中文翻译成英文作为keyList<String> fieldList = new ArrayList<>();fieldList.add("jydh");fieldList.add("jysj");fieldList.add("jylx");fieldList.add("szqt");fieldList.add("jyfs");fieldList.add("je");fieldList.add("jydf");fieldList.add("shdh");JSONArray jsonArray = new JSONArray();// 表格提取算法SpreadsheetExtractionAlgorithm algorithm = new SpreadsheetExtractionAlgorithm();try (PDDocument document = PDDocument.load(new File(filePath))) {ObjectExtractor extractor = new ObjectExtractor(document);PageIterator pi = extractor.extract();// 遍历页while (pi.hasNext()) {Page page = pi.next();List<Table> tableList = algorithm.extract(page);// 遍历表for (Table table : tableList) {List<List<RectangularTextContainer>> rowList = table.getRows();// 遍历行for (List<RectangularTextContainer> row : rowList) {JSONObject jsonObject = new JSONObject();// 遍历列for (int i = 0; i < row.size(); i++) {RectangularTextContainer cell = row.get(i);String text = cell.getText().replace("\r", "");jsonObject.put(fieldList.get(i), text);}jsonArray.add(jsonObject);}}}} catch (Exception e) {e.printStackTrace();}return jsonArray;}}

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词