欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 房产 > 建筑 > 分享一些多模态文档解析思路

分享一些多模态文档解析思路

2026/4/23 4:17:26 来源：https://blog.csdn.net/weixin_43520816/article/details/148124710 浏览: 次关键词：分享一些多模态文档解析思路

多模态文档解析思路小记

作者：Arlene

原文：https://zhuanlan.zhihu.com/p/1905635679293122466

多模态文档解析内容涉及：文本、表格和图片

解析思路v1

基于mineru框架对pdf文件进行初解析

其具备较完整的布局识别和内容识别，并将识别的结果编辑为markdown格式。

针对使用场景如合同审核进行二次处理

合同审核场景对合同内容的准确性和完整性要求较高，故将解析出的discarded_blocks内容进行复原，重构md文件。

多模态内容理解

使用vlm对合同的图像和表格图像进行整体内容分析。经测试，至少qwen 2.5 vl -7b以上的模型方可实现较为准确的内容描述。

v1版问题及解决方案：

出现整行内容识别遗漏。（解决：将magic-pdf版本更新至3.11版本，一定程度上解决了现在的问题）
discared_blocks中可能包含一些识别准确率较低的内容。（解决：通过score设置阈值&判断文本字数筛选）
表格截取不全

参考

mineru项目地址：GitHub - opendatalab/MinerU: A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词