MinerU发布至今我已经更新多版整合包了,5天前MinerU发布了第一个正式版1.0.1,并且看到在18小时之前有更新模型文件,我就做了个最新版的一键启动整合包。
MinerU介绍
可能还有很多人没使用过这个软件。MinerU是一款非常热门的高质量PDF转markdown和JSON格式软件
- 删除页眉、页脚、脚注、页码等,以确保语义一致性。
- 以人类可读的顺序输出文本,适用于单列、多列和复杂布局。
- 保留原始文档的结构,包括标题、段落、列表等。
- 提取图像、图像描述、表格、表格标题和脚注。
- 自动识别文档中的公式并转换为 LaTeX 格式。
- 自动识别文档中的表格并转换为HTML格式。
- 自动检测扫描的 PDF 和乱码 PDF 并启用 OCR 功能。
- OCR支持84种语言的检测和识别。
- 支持多种输出格式,如多模式和 NLP Markdown、按阅读顺序排序的 JSON 以及丰富的中间格式。
- 支持多种可视化结果,包括布局可视化、跨度可视化,可有效确认输出质量。
- 支持纯CPU环境运行,同时支持GPU(CUDA)/NPU(CANN)/MPS加速
- 兼容 Windows、Linux 和 Mac 平台。
在1月10日的时候发布了第一个正式版1.0.1版。1.0.1版更新内容有:
引入了全新的API接口,并通过大量重构增强了兼容性,同时引入了全新的自动语言识别功能:
- 新的 API 接口
- 对于数据端API,我们引入了Dataset类,旨在提供强大而灵活的数据处理框架。该框架目前支持多种文档格式,包括图片(.jpg和.png)、PDF、Word文档(.doc和.docx)和PowerPoint演示文稿(.ppt和.pptx)。它确保有效支持从简单到复杂的数据处理任务。
- 对于用户端API,我们精心设计了MinerU的处理流程为一系列可组合的Stage,每个Stage代表一个具体的处理步骤,用户可以根据自己的需求定义新的Stage,并创造性地组合这些Stage来定制自己的数据处理流程。
- 增强兼容性
- 通过优化依赖环境和配置项,保证在ARM架构Linux系统上稳定、高效的运行。
- 与华为Ascend NPU加速深度融合,提供自主可控的高性能计算能力,支撑中国AI应用平台的本土化发展。Ascend NPU加速
- 自动语言识别
- 通过引入新的语言识别模型,在文档解析时将配置设置
lang
为auto
将自动选择合适的OCR语言模型,提高扫描文档解析的准确性。
- 通过引入新的语言识别模型,在文档解析时将配置设置
更多更新内容可查看以前版本介绍《PDF转Markdown格式软件MinerU一键启动整合包v0.10.0版》
MinerU整合包使用说明
首先将软件压缩包从网盘下载到本地电脑上并解压。由于模型文件比较大,我没有打包进压缩包里,而是做了个下载程序,可以从阿里平台上高速下载。首先双击运行【下载模型文件.exe】,稍等几分钟就可以下载完成,下载完成时终端窗口中会提示模型下载完成信息。
然后双击运行【启动软件.exe】即可打开软件操作界面。
首先选择待处理PDF文件,你可以点击选择文件按钮选择文件,也可以把想要处理的文件鼠标左键按住拖动到软件窗口中,软件会自动填充路径。软件也支持批量处理,你可以选择处理某个文件夹。当前版本新增处理其它多种格式文件: .png .jpg .ppt .pptx .doc .docx
处理方法:默认auto模式,你也可以手动选择ocr或txt,如果是纯文本文档,建议选择txt,速度更快
PDF语言:用于辅助优化ocr的准确性,填写语言代码如英语:en
起始页:想从PDF哪页开始处理。页数从0开始计数的,比如想从第二页开始处理,这里就填1
结束页:想要软件处理到哪页结束,和上面一样,填数字
默认只需要设置待处理文件和保存位置即可,其它不需要设置。
其它选项说明:
表格识别模型默认为RapidTable,你也可以选择其它模型
表格识别和公式识别功能默认都是开启的,如果你用不到这些功能或是电脑带不动,你可以选择关闭这些功能。
软件支持使用通义千问大语言模型对相关功能辅助优化,使用的是在线通义千问功能,所以如果你想要使用这个功能的话,需要申请API KEY。
首先申请一个阿里云百炼的API KEY:https://bailian.console.aliyun.com/?apiKey=1#/api-key
API KEY为sk-开头的一串字符串,然后申请开通大模型:https://bailian.console.aliyun.com/#/model-market,选择一个你想使用的模型,鼠标放在【立即体验】四个字上方会出现开通提示,你点击去开通,开通了大模型使用权限你才可以通过API调用相关大模型
然后在软件API KEY输入框里填写你的阿里云百炼key点击设置就可以了。
要注意,通义千问在线大语言模型并不是完全免费的,是有一定的免费额度的,注意你的用量
PDF文档处理完成后结果会保存在你设置的输出目录里。
输出结果文件说明:
├——some_pdf.md#最终md文件
├——images#图像存储目录
├——some_pdf_layout.pdf#布局图
├——some_pdf_middle.json#MinerU中间处理结果
├——some_pdf_model.json模型推理结果
├——some_pdf_origin.pdf#根据设置处理后的原始pdf文件,如裁剪了页数范围
├——some_pdf_spans.pdf#最小粒度bbox位置信息图
└——some_pdf_content_list.json#按阅读顺序排列的富文本json
注意事项
整合包只支持Windows 10或11系统
软件运行路径中不要有非英文字符和空格