分享价值
提升价值

批量PDF文档转MD格式软件marker整合包下载,PDF文件转Markdown格式文件工具

Marker是另一款比较热门的PDF格式文件转Markdown文件的软件,之前介绍过一个软件MinerU:《PDF转md格式软件MinerU整合包下载,一键pdf批量转markdown免费工具》,Marker相对来说操作更简单一些,也比较受欢迎,本软件为免费开源软件,原项目地址:https://github.com/VikParuchuri/marker,原应用安装比较复杂,我制作了Windows版一键启动整合包,操作界面如下:

PDF文件转MD格式文件软件Marker特点:

Marker 快速准确地将 PDF 转换为 markdown。

  • 支持多种文档(针对书籍和科学论文进行了优化)
  • 支持所有语言
  • 删除页眉/页脚/其他物品
  • 格式化表格和代码块
  • 提取并保存图像和 Markdown
  • 将大多数方程式转换为latex
  • 适用于 GPU、CPU 或 MPS

Marker工作原理

Marker 是深度学习模型的管道:

  • 提取文本,必要时进行 OCR(启发式、surya、tesseract)
  • 检测页面布局并找到阅读顺序(surya)
  • 清理并格式化每个块(启发式、texify
  • 组合块并对完整文本进行后处理(启发式,pdf_postprocessor)

它仅在必要时使用模型,从而提高速度和准确性。

Marker商业用途的作者声明:

“我希望marker尽可能广泛地普及,同时仍能为我的开发/培训费用提供资金。研究和个人使用始终是可以的,但商业使用会受到一些限制。

这些模型的权重是经过授权的cc-by-nc-sa-4.0,但对于最近 12 个月内总收入低于 500 万美元且一生中筹集的 VC/天使资金低于 500 万美元的任何组织,我将免除该授权。”更多描述查看:https://www.datalab.to/

marker注意问题

PDF 是一种棘手的格式,因此marker并不总是能完美地工作。以下是一些已知的限制,这些限制正在规划中:

  • Marker 不会将 100% 的方程式转换为 LaTeX。这是因为它必须先检测然后再转换。
  • 表格的格式并不总是 100% 正确 – 文本可能位于错误的列中。
  • 空格和缩进并不总是准确。
  • 并非所有的线/跨度都能正确连接。
  • 此功能最适合不需要大量 OCR 的数字 PDF。它针对速度进行了优化,并使用有限的 OCR 来修复错误。

PDF文档转MD格式软件marker整合包下载链接:

夸克网盘:

https://pan.quark.cn/s/3d9c0540d8d2

百度网盘:

https://pan.baidu.com/s/19rtneWxDzh9OGvF1zm2aBw?pwd=b7q8 提取码: b7q8

赞(0) 打赏
未经允许不得转载:诺瓦软件 » 批量PDF文档转MD格式软件marker整合包下载,PDF文件转Markdown格式文件工具

觉得文章对你有帮助就打赏一下作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的世界!

支付宝扫一扫

微信扫一扫