MinerU发布至今我已经更新多版整合包了,5天前MinerU发布了第一个正式版1.0.1,并且看到在18小时之前有更新模型文件,我就做了个最新版的一键启动整合包。
2025年02月21日更新v1.1.0版整合包
2025年02月27日更新v1.2.0版整合包
2025-06-05 更新v1.3.12版本

MinerU介绍
可能还有很多人没使用过这个软件。MinerU是一款非常热门的高质量PDF转markdown和JSON格式软件
- 删除页眉、页脚、脚注、页码等元素,确保语义连贯
- 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
- 保留原文档的结构,包括标题、段落、列表等
- 提取图像、图片描述、表格、表格标题及脚注
- 自动识别并转换文档中的公式为LaTeX格式
- 自动识别并转换文档中的表格为HTML格式
- 自动检测扫描版PDF和乱码PDF,并启用OCR功能
- OCR支持84种语言的检测与识别
- 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
- 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检
在1月10日的时候发布了第一个正式版1.0.1版。1.0.1版更新内容有:
引入了全新的API接口,并通过大量重构增强了兼容性,同时引入了全新的自动语言识别功能:
- 新的 API 接口
- 对于数据端API,我们引入了Dataset类,旨在提供强大而灵活的数据处理框架。该框架目前支持多种文档格式,包括图片(.jpg和.png)、PDF、Word文档(.doc和.docx)和PowerPoint演示文稿(.ppt和.pptx)。它确保有效支持从简单到复杂的数据处理任务。
- 对于用户端API,我们精心设计了MinerU的处理流程为一系列可组合的Stage,每个Stage代表一个具体的处理步骤,用户可以根据自己的需求定义新的Stage,并创造性地组合这些Stage来定制自己的数据处理流程。
- 增强兼容性
- 通过优化依赖环境和配置项,保证在ARM架构Linux系统上稳定、高效的运行。
- 与华为Ascend NPU加速深度融合,提供自主可控的高性能计算能力,支撑中国AI应用平台的本土化发展。Ascend NPU加速
- 自动语言识别
- 通过引入新的语言识别模型,在文档解析时将配置设置
lang
为auto
将自动选择合适的OCR语言模型,提高扫描文档解析的准确性。
- 通过引入新的语言识别模型,在文档解析时将配置设置
更多更新内容可查看以前版本介绍《PDF转Markdown格式软件MinerU一键启动整合包v0.10.0版》
其它更新内容
2025年2月21日整合包更新内容
支持最新1.1.0版,此版本重点提升了解析准确率和效率:
模型能力升级(需要重新下载模型文件,以前的已不可用)
布局识别模型升级为最新的doclayout_yolo(2501)模型,提升布局识别准确率。
公式解析模型升级为最新的unimernet(2501)模型,提升公式识别准确率。
性能优化
在满足一定配置要求的设备上(16GB+VRAM),通过优化资源使用和重构处理流水线,整体解析速度提升50%以上。
解析效果优化
2025年2月27日整合包更新内容
1.2.0发布。此版本包括几个修复和改进,以提高解析效率和准确性:
性能优化
提高了自动模式下PDF文档的分类速度。
解析优化
改进了包含水印的文档的解析逻辑,显著提高了此类文档的解析结果。
增强了单个页面内多个图像/表格和标题的匹配逻辑,提高了复杂布局中图像文本匹配的准确性。
漏洞修补
修复了在某些情况下图像/表格跨度被错误地填充到文本块中的问题。
解决了某些情况下标题栏为空的问题。
1.2.1-1.3.10大量更新内容不再转述
1.3.12更新内容
- 增加ppocrv5模型的支持,将
ch_server
模型更新为PP-OCRv5_rec_server
,ch_lite
模型更新为PP-OCRv5_rec_mobile
(需更新模型)- 在测试中,发现ppocrv5(server)对手写文档效果有一定提升,但在其余类别文档的精度略差于v4_server_doc,因此默认的ch模型保持不变,仍为
PP-OCRv4_server_rec_doc
。 - 由于ppocrv5强化了手写场景和特殊字符的识别能力,因此您可以在日繁混合场景以及手写文档场景下手动选择使用ppocrv5模型
- 您可通过lang参数
lang='ch_server'
(python api)或--lang ch_server
(命令行)自行选择相应的模型:ch
:PP-OCRv4_rec_server_doc
(默认)(中英日繁混合/1.5w字典)ch_server
:PP-OCRv5_rec_server
(中英日繁混合+手写场景/1.8w字典)ch_lite
:PP-OCRv5_rec_mobile
(中英日繁混合+手写场景/1.8w字典)ch_server_v4
:PP-OCRv4_rec_server
(中英混合/6k字典)ch_lite_v4
:PP-OCRv4_rec_mobile
(中英混合/6k字典)
- 在测试中,发现ppocrv5(server)对手写文档效果有一定提升,但在其余类别文档的精度略差于v4_server_doc,因此默认的ch模型保持不变,仍为
- 增加手写文档的支持,通过优化layout对手写文本区域的识别,现已支持手写文档的解析
- 默认支持此功能,无需额外配置
- 可以参考上述说明,手动选择ppocrv5模型以获得更好的手写文档解析效果
MinerU整合包使用说明
首先将软件压缩包从网盘下载到本地电脑上并解压。由于模型文件比较大,我没有打包进压缩包里,而是做了个下载程序,可以从阿里平台上高速下载。首先双击运行【下载模型文件.exe】,稍等几分钟就可以下载完成,下载完成时终端窗口中会提示模型下载完成信息。
然后双击运行【启动软件.exe】即可打开软件操作界面。
首先选择待处理PDF文件,你可以点击选择文件按钮选择文件,也可以把想要处理的文件鼠标左键按住拖动到软件窗口中,软件会自动填充路径。软件也支持批量处理,你可以选择处理某个文件夹。当前版本新增处理其它多种格式文件: .png .jpg .ppt .pptx .doc .docx
处理方法:默认auto模式,你也可以手动选择ocr或txt,如果是纯文本文档,建议选择txt,速度更快
PDF语言:用于辅助优化ocr的准确性,填写语言代码,如英语文档填:en
v1.3.12更新语言识别模型:
ch
:PP-OCRv4_rec_server_doc
(默认)(中英日繁混合/1.5w字典)ch_server
:PP-OCRv5_rec_server
(中英日繁混合+手写场景/1.8w字典)ch_lite
:PP-OCRv5_rec_mobile
(中英日繁混合+手写场景/1.8w字典)ch_server_v4
:PP-OCRv4_rec_server
(中英混合/6k字典)ch_lite_v4
:PP-OCRv4_rec_mobile
(中英混合/6k字典)
起始页:想从PDF哪页开始处理。页数从0开始计数的,比如想从第二页开始处理,这里就填1
结束页:想要软件处理到哪页结束,和上面一样,填数字
默认只需要设置待处理文件和保存位置即可,其它不需要设置。
其它选项说明:
表格识别模型默认为RapidTable,你也可以选择其它模型
表格识别和公式识别功能默认都是开启的,如果你用不到这些功能或是电脑带不动,你可以选择关闭这些功能。
软件支持使用通义千问大语言模型对相关功能辅助优化,使用的是在线通义千问功能,所以如果你想要使用这个功能的话,需要申请API KEY。
首先申请一个阿里云百炼的API KEY:https://bailian.console.aliyun.com/?apiKey=1#/api-key
API KEY为sk-开头的一串字符串,然后申请开通大模型:https://bailian.console.aliyun.com/#/model-market,选择一个你想使用的模型,鼠标放在【立即体验】四个字上方会出现开通提示,你点击去开通,开通了大模型使用权限你才可以通过API调用相关大模型

然后在软件API KEY输入框里填写你的阿里云百炼key点击设置就可以了。
要注意,通义千问在线大语言模型并不是完全免费的,是有一定的免费额度的,注意你的用量
PDF文档处理完成后结果会保存在你设置的输出目录里。
输出结果文件说明:
├——some_pdf.md#最终md文件
├——images#图像存储目录
├——some_pdf_layout.pdf#布局图
├——some_pdf_middle.json#MinerU中间处理结果
├——some_pdf_model.json模型推理结果
├——some_pdf_origin.pdf#根据设置处理后的原始pdf文件,如裁剪了页数范围
├——some_pdf_spans.pdf#最小粒度bbox位置信息图
└——some_pdf_content_list.json#按阅读顺序排列的富文本json
注意事项
英伟达低配显卡可用,但建议显存不低于4G
支持英伟达50系列显卡
整合包只支持Windows 10或11系统
软件运行路径中不要有非英文字符和空格,待处理文件同样注意
保存位置不要选择盘符根目录下
如果软件转移过文件夹,或是以前使用过mineru,需要随便点个开始处理以外的设置按钮,以更新配置文件内容
PDF转Markdown软件MinerU 1.3.12版整合包下载链接
https://pan.quark.cn/s/8c854a17f594
https://pan.baidu.com/s/1jUcyr1Mgm9mKskUC-69pYA?pwd=rpbj
做完整合包,发现官方也出本地客户端了,我一并上传到网盘里了,大家可以自行测试
MinerU本地电脑安装部署教程
相关推荐
微软PDF/WORD/HTML文档转Markdown格式软件markitdown整合包下载
PDF转Markdown软件MinerU 1.1.0版整合包使用说明视频教程
PDF/EPUB转Markdown/HTML软件Marker v1.6.1 2025-03-21版
PDF转Markdown软件zerox整合包,利用在线大语言模型识别转换PDF内容
最新版PDF转Markdown格式软件MinerU一键启动整合包v0.10.0下载
批量PDF文档转MD格式软件marker整合包下载,PDF文件转Markdown格式文件工具
PDF转md格式软件MinerU整合包下载,一键pdf批量转markdown免费工具
AI自动化任务执行工具OpenManus一键启动整合包
最近更新

AI歌曲创作软件YuE整合包下载,一键谱曲演唱音乐生成器
YuE:开放的全曲音乐生成基础模型,可免费一键生成完整歌曲,AI作曲,AI演唱,是一个高质量的AI音乐生成软件。我制作了最新的面安装一键启动整合包。 YuE介绍 YuE 是一系列突破性的开源基础模型,专为音乐生成而设计,尤其适用于将歌词转化...

可灵AI会员专属优惠邀请码,限时福利领取
可灵AI发福利了,通过专属优惠邀请码 6BZPEJK83JZ9 可额外获得50%灵感值。 现在图片、音乐、视频等等,啥都可以用AI生成,可灵AI就是快手旗下非常强大的一个AI内容创作平台,功能多样,效果强大。我最近半年几乎每周都会使用多次,...

多人对话语音合成软件CSM整合包,AI多人文字转语音工具
CSM是发布不久的一款多人对话语音生成模型,声音自然延迟低,同时支持克隆音色语音合成,我基于当前最新版本制作了免安装一键启动整合包。 Sesame CSM介绍 CSM(Conversational Speech Model) 是由...

AI自动化任务执行工具OpenManus一键启动整合包
OpenManus是另一款AI自动化任务执行软件,是Manus的开源实现,无需邀请码,本地运行,我基于当前最新版本制作了免安装一键启动整合包。 OpenManus介绍 OpenManus 是一个开源复刻版 AI 智能体框架,由 MetaGP...

CAMEL-AI开源多智能体协作框架OWL一键整合包,自动化任务助手
OWL 是由 CAMEL-AI 团队开发的开源多智能体协作框架,旨在通过动态智能体交互实现复杂任务的自动化处理,在 GAIA 基准测试中以 69.09 分位列开源框架榜首,被誉为“Manus 的开源平替”。我基于当前最新...

微软PDF/WORD/HTML文档转Markdown格式软件markitdown整合包下载
本次和大家分享另一个微软发布的非常热门的文件文档转Markdown格式文档的软件markitdown,软件可以将PDF,word,ppt,Excel等十几种格式文档转换为markdown格式文档,我基于当前最新0.1.2版本制作了免安装一键...

AI描述万物软件describe-anything整合包,精准描述图片视频中指定区域内容
本次和大家分享一个英伟达联合其他大学开发的一款应用describe-anything,该应用可以通过AI识别分析并详细描述图片视频中指定区域物体内容,我基于最新版制作了免安装一键启动整合包。 describe-anything介绍 Desc...

高效可控歌曲生成器ACE-Step一键启动整合包,音乐人的歌曲创作利器
又一款AI歌曲创作利器:ACE-Step,ACE-Step是刚发布不久的AI自动谱曲AI自动演唱软件,软件在歌曲生成速度、音乐连贯性和可控性上相对同类软件有了较大提升。ACE-Step在3小时前刚发布了新版本,我基于当前最新版本制作了免安装...

超逼真对话型文字转语音软件Dia-1.6B免安装一键启动整合包下载
本次分享一个刚出的超逼真对话型文字转语音软件Dia-1.6B,这个TTS软件不像传统的文字转语音那样,Dia可以生成对话音频,还可以生成非语言音效,如笑声,咳嗽,清嗓子等,还支持声音克隆。我基于当前Dia最新版本制作了免安装一键启动整合包。...

高精度2D图片转3D网格模型软件Stable3DGen整合包下载
本次和大家分享另一个非常牛叉的图片转3D模型软件Stable3DGen,从官方演示对比来看,效果要好于我之前分享的腾讯混元3D和TRELLIS,精度更高更细腻。基于当前最新版本我制作了一键启动整合包。 Stable3DGen介绍 随着从二维...