AI软件下载
有趣网站推荐及实用软件下载

PDF转Markdown/JSON软件MinerU最新2.1.4版一键启动整合包下载

MinerU发布至今我已经更新多版整合包了,5天前MinerU发布了第一个正式版1.0.1,并且看到在18小时之前有更新模型文件,我就做了个最新版的一键启动整合包。


2025年02月21日更新v1.1.0版整合包

2025年02月27日更新v1.2.0版整合包

2025-06-05 更新v1.3.12版本

2025-07-24 更新v2.1.4版本

MinerU介绍

可能还有很多人没使用过这个软件。MinerU是一款非常热门的高质量PDF转markdown和JSON格式软件

MinerU主要特点

  • 删除页眉、页脚、脚注、页码等元素,确保语义连贯
  • 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片描述、表格、表格标题及脚注
  • 自动识别并转换文档中的公式为LaTeX格式
  • 自动识别并转换文档中的表格为HTML格式
  • 自动检测扫描版PDF和乱码PDF,并启用OCR功能
  • OCR支持84种语言的检测与识别
  • 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
  • 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检

更新记录

  • 2025/07/23 2.1.4 发布
    • 错误修复
      • 修复某些场景下后端MFR步骤内存消耗过大的问题#2771pipeline
      • 修复某些条件下image/tablecaption/匹配不准确的问题#3129footnote
  • 2025/07/16 2.1.1 发布
    • 错误修复
      • 修复某些场景下可能出现的文本块内容丢失问题pipeline#3005
      • sglang-client修复需要不必要的包(如torch#2968)的问题
      • 更新dockerfile以修复由于 Linux 中缺少字体导致的文本内容解析不完整问题 #2915
    • 可用性改进
      • 已更新compose.yaml,以便于直接启动sglang-server、、mineru-apimineru-gradio服务
      • 推出全新的在线文档网站,简化自述文件,提供更好的文档体验
  • 2025/07/05 版本 2.1.0 发布
    • 这是MinerU 2的首次重大更新,包含大量新功能和改进,涵盖显著的性能优化、用户体验提升以及错误修复。详细更新内容如下:
    • 性能优化:
      • 显著提高了特定分辨率文档(长边约 2000 像素)的预处理速度。
      • pipeline后端批量处理页数较少(<10页)的文档时,后处理速度大大提高。
      • 后端布局分析速度pipeline提升约20%。
    • 体验增强:
      • 内置即用型fastapi servicegradio webui。有关详细使用说明,请参阅文档。
      • 已适配sglang版本0.4.8,显著降低了后端 GPU 内存需求vlm-sglang。现在只需8GB GPU memory(Turing 架构或更新版本) 的显卡即可运行。
      • 为所有相关的命令添加了透明参数传递sglang,允许后端以与一致的方式sglang-engine接收所有参数。sglangsglang-server
      • 支持基于配置文件的功能扩展,包括custom formula delimitersenabling heading classificationcustomizing local model directories。详细使用说明请参考文档。
    • 新功能:
      • 后端更新pipelinePP-OCRv5多语言文本识别模型,支持法语、西班牙语、葡萄牙语、俄语、韩语等37种语言的文本识别,平均准确率提升30%以上。详情
      • 在后端引入了对垂直文本布局的有限支持pipeline

更多更新内容可查看以前版本介绍《PDF转Markdown格式软件MinerU一键启动整合包v0.10.0版

其它更新内容

在1月10日的时候发布了第一个正式版1.0.1版。1.0.1版更新内容有:

引入了全新的API接口,并通过大量重构增强了兼容性,同时引入了全新的自动语言识别功能:

  • 新的 API 接口
    • 对于数据端API,我们引入了Dataset类,旨在提供强大而灵活的数据处理框架。该框架目前支持多种文档格式,包括图片(.jpg和.png)、PDF、Word文档(.doc和.docx)和PowerPoint演示文稿(.ppt和.pptx)。它确保有效支持从简单到复杂的数据处理任务。
    • 对于用户端API,我们精心设计了MinerU的处理流程为一系列可组合的Stage,每个Stage代表一个具体的处理步骤,用户可以根据自己的需求定义新的Stage,并创造性地组合这些Stage来定制自己的数据处理流程。
  • 增强兼容性
    • 通过优化依赖环境和配置项,保证在ARM架构Linux系统上稳定、高效的运行。
    • 与华为Ascend NPU加速深度融合,提供自主可控的高性能计算能力,支撑中国AI应用平台的本土化发展。Ascend NPU加速
  • 自动语言识别
    • 通过引入新的语言识别模型,在文档解析时将配置设置langauto将自动选择合适的OCR语言模型,提高扫描文档解析的准确性。

2025年2月21日整合包更新内容

支持最新1.1.0版,此版本重点提升了解析准确率和效率:
模型能力升级(需要重新下载模型文件,以前的已不可用)
布局识别模型升级为最新的doclayout_yolo(2501)模型,提升布局识别准确率。
公式解析模型升级为最新的unimernet(2501)模型,提升公式识别准确率。
性能优化
在满足一定配置要求的设备上(16GB+VRAM),通过优化资源使用和重构处理流水线,整体解析速度提升50%以上。
解析效果优化


2025年2月27日整合包更新内容

1.2.0发布。此版本包括几个修复和改进,以提高解析效率和准确性:

性能优化

提高了自动模式下PDF文档的分类速度。

解析优化

改进了包含水印的文档的解析逻辑,显著提高了此类文档的解析结果。

增强了单个页面内多个图像/表格和标题的匹配逻辑,提高了复杂布局中图像文本匹配的准确性。

漏洞修补

修复了在某些情况下图像/表格跨度被错误地填充到文本块中的问题。

解决了某些情况下标题栏为空的问题。


1.2.1-1.3.10大量更新内容不再转述

1.3.12更新内容

  • 增加ppocrv5模型的支持,将ch_server模型更新为PP-OCRv5_rec_serverch_lite模型更新为PP-OCRv5_rec_mobile(需更新模型)
    • 在测试中,发现ppocrv5(server)对手写文档效果有一定提升,但在其余类别文档的精度略差于v4_server_doc,因此默认的ch模型保持不变,仍为PP-OCRv4_server_rec_doc
    • 由于ppocrv5强化了手写场景和特殊字符的识别能力,因此您可以在日繁混合场景以及手写文档场景下手动选择使用ppocrv5模型
    • 您可通过lang参数lang='ch_server'(python api)或--lang ch_server(命令行)自行选择相应的模型:
      • ch :PP-OCRv4_rec_server_doc(默认)(中英日繁混合/1.5w字典)
      • ch_server :PP-OCRv5_rec_server(中英日繁混合+手写场景/1.8w字典)
      • ch_lite :PP-OCRv5_rec_mobile(中英日繁混合+手写场景/1.8w字典)
      • ch_server_v4 :PP-OCRv4_rec_server(中英混合/6k字典)
      • ch_lite_v4 :PP-OCRv4_rec_mobile(中英混合/6k字典)
  • 增加手写文档的支持,通过优化layout对手写文本区域的识别,现已支持手写文档的解析
    • 默认支持此功能,无需额外配置
    • 可以参考上述说明,手动选择ppocrv5模型以获得更好的手写文档解析效果

MinerU整合包使用说明

首先将软件压缩包从网盘下载到本地电脑上并解压。

然后双击运行【启动软件.exe】即可打开软件操作界面。

首先选择待处理PDF文件,你可以点击选择文件按钮选择文件,也可以把想要处理的文件鼠标左键按住拖动到软件窗口中,软件会自动填充路径。软件也支持批量处理,你可以选择处理某个文件夹。当前版本新增处理其它多种格式文件: .png .jpg .ppt .pptx .doc .docx

处理方法:默认auto模式,你也可以手动选择ocr或txt,如果是纯文本文档,建议选择txt,速度更快

PDF语言:用于辅助优化ocr的准确性,填写语言代码,如英语文档填:en

v1.3.12更新语言识别模型:

  • ch :PP-OCRv4_rec_server_doc(默认)(中英日繁混合/1.5w字典)
  • ch_server :PP-OCRv5_rec_server(中英日繁混合+手写场景/1.8w字典)
  • ch_lite :PP-OCRv5_rec_mobile(中英日繁混合+手写场景/1.8w字典)
  • ch_server_v4 :PP-OCRv4_rec_server(中英混合/6k字典)
  • ch_lite_v4 :PP-OCRv4_rec_mobile(中英混合/6k字典)

起始页:想从PDF哪页开始处理。页数从0开始计数的,比如想从第二页开始处理,这里就填1

结束页:想要软件处理到哪页结束,和上面一样,填数字

默认只需要设置待处理文件和保存位置即可,其它不需要设置。

表格识别和公式识别功能默认都是开启的,如果你用不到这些功能或是电脑带不动,你可以选择关闭这些功能。

旧版内容

首先申请一个阿里云百炼的API KEY:https://bailian.console.aliyun.com/?apiKey=1#/api-key

API KEY为sk-开头的一串字符串,然后申请开通大模型:https://bailian.console.aliyun.com/#/model-market,选择一个你想使用的模型,鼠标放在【立即体验】四个字上方会出现开通提示,你点击去开通,开通了大模型使用权限你才可以通过API调用相关大模型

然后在软件API KEY输入框里填写你的阿里云百炼key点击设置就可以了。

要注意,通义千问在线大语言模型并不是完全免费的,是有一定的免费额度的,注意你的用量

PDF文档处理完成后结果会保存在你设置的输出目录里。

输出结果文件说明:

├——some_pdf.md#最终md文件

├——images#图像存储目录

├——some_pdf_layout.pdf#布局图

├——some_pdf_middle.json#MinerU中间处理结果

├——some_pdf_model.json模型推理结果

├——some_pdf_origin.pdf#根据设置处理后的原始pdf文件,如裁剪了页数范围

├——some_pdf_spans.pdf#最小粒度bbox位置信息图

└——some_pdf_content_list.json#按阅读顺序排列的富文本json


视频教程:https://nuowa.net/1656

注意事项

程序要求硬件为图灵架构或更高显卡,建议英伟达显卡为20X或更高系列用户使用

支持英伟达50系列显卡

整合包只支持Windows 10或11系统

软件运行路径中不要有非英文字符和空格,待处理文件同样注意

保存位置不要选择盘符根目录下

PDF转Markdown软件MinerU 2.1.4版整合包下载链接

https://pan.quark.cn/s/8c854a17f594

MinerU本地电脑安装部署教程

https://nuowa.net/1960

领即梦AI免费积分,开启AI创作之旅:速领>>

软件催更及1对1人工答疑支持: https://nuowa.net/1806
赞(19) 打赏
软件无法使用?点击查看常见问题说明>>

最近更新

免费在线视频去水印工具方法-诺瓦小站

免费在线视频去水印工具方法

本次分享一个免费的在线视频去水印工具–记灵 这个在线工具目前是完全免费的,上传mp4视频文件,然后鼠标框选去水印区域,然后点击处理等待处理完成就可以了,操作非常简单。 这个去水印工具是采用打码的方式覆盖原水印区域的,并不是AI智...

Unreal Engine 5恐怖游戏设计制作教程,从入门到精通从零开始完整项目开发详细讲解,中英文字幕-诺瓦小站

Unreal Engine 5恐怖游戏设计制作教程,从入门到精通从零开始完整项目开发详细讲解,中英文字幕

和大家分享一个以前收集的UE5虚幻引擎恐怖游戏开发教程,这是国外一个大神制作的视频教程,教程从零开始到制作出一款完整的游戏。内容讲解全面,如蓝图基础知识讲解、角色控制、高级交互系统、高级库存系统、物品检查、恐怖环境氛围设计、过场动画、AI系...

觉得文章对你有帮助就打赏一下作者

非常感谢你的打赏,我将有更多的动力继续提供优质内容,让我们一起创建更加美好的世界!

支付宝扫一扫

微信扫一扫