今天和大家分享一个PDF文件转Markdown格式软件MinerU,这个软件可以同时将一个pdf或是多个pdf文件批量转换成md格式和JSON格式文件,本软件为免费开源软件,原项目地址:https://github.com/opendatalab/MinerU,原应用是通过终端运行命令执行相应功能的,我做了个UI界面,如图所示:
主要特点
- 删除页眉、页脚、脚注和页码等元素,同时保持语义连续性
- 从多列文档中以人类可读的顺序输出文本
- 保留文档的原始结构,包括标题、段落和列表
- 提取图像、图像说明、表格和表格说明
- 自动识别文档中的公式并将其转换为 LaTeX
- 自动识别文档中的表格并将其转换为 LaTeX
- 自动检测并启用损坏 PDF 的 OCR
- 支持 CPU 和 GPU 环境
- 支持 Windows、Linux 和 Mac 平台(我打包版本只支持Windows)
软件操作也很简单,先选择PDF文件或是pdf所在文件夹,注意如果是选择文件夹的话路径末尾不能有”\”,再选择保存位置,处理方法默认auto,另外还有ocr和txt,如果正在处理包含大量公式的 PDF,强烈建议启用 OCR 功能。
如果有高配显卡的话,可以选择GPU模式速度更快,没有的话可以选择CPU模式,点击开始处理按钮,处理完成后在输出文件夹内就可以看到输出结果md和JSON格式文件
本整合包只支持Windows电脑版,不支持手机和mac,有需要的可以自己去测试。
2024-09-16更新
MinerU在9月12日发布了0.8.1版本,同时在14日发布了新的模型文件,所以我重新制作了最新版的一键启动整合包
新的整合包UI界面增加了表格操作的相关选项,如果你的PDF中有大量表格的话,可以通过开启表格识别功能增加导出效果
软件默认处理最大时间为400秒,也就是说如果超过400秒,你的转换任务还没有完成,那么软件可能会报错。所以请根据你的电脑配置合理安排每次识别PDF的数量
PDF格式转Markdown软件MinerU一键启动整合包下载:
夸克网盘:https://pan.quark.cn/s/03c6d214394b
百度网盘:https://pan.baidu.com/s/1l-O9oWWg8A1vwtXOZVnkMg?pwd=isye 提取码: isye