PDF/EPUB转Markdown/HTML软件Marker v1.6.1 2025-03-21版-诺瓦小站

Marker是一个非常热门的可以将PDF及其它文档文件转换成Markdown/JSON/Html的应用，处理速度快识别精度高，支持批量多PDF转换，是一个强大的PDF转MD工具。它昨天更新了最新版本v1.1.0，我制作了最新版的一键启动包并重新制作了UI界面。

2025-03-21 更新v1.6.1版本

文章目录 隐藏

1 Marker简介

2 Marker一键启动整合包软件使用说明：

3 注意事项：

4 Marker 1.6.1版一键启动包下载链接：

PDF/EPUB转Markdown/HTML软件Marker v1.6.1 2025-03-21版

Marker简介

Marker 可以快速准确地将 PDF, image, PPTX, DOCX, XLSX, HTML, EPUB转换为 markdown、JSON 和 HTML。

支持多种文档
支持所有语言
删除页眉/页脚/其他物品
格式化表格和代码块
提取并保存图像和 Markdown
将方程式转换为乳胶
可通过您自己的格式和逻辑轻松扩展
适用于 GPU、CPU 或 MPS

相对于我分享的上个整合包，应用已经更新了多个版本了，而且更新内容比较多，具体更新内容如下：

Marker历史版本更新内容

12月13日 v1.1.0

标记错误修复和“pdftext”改进

修复以正确chunk_convert.sh处理output_dir
pdftext改进和其它错误修复
- 空白页和目录错误修复
- 修复 README.md 并更新示例
- 更新至最新的 pdftext 版本，结合启发式分割技术，以增强性能和准确性
- 更新surya和tabled依赖项，并修复各种错误。

12月4日 v1.0.2

错误修复 – Python 3.10 兼容性、引号、图像

修复 Python 3.10 的问题
修复引号字符的位置
将默认图像输出类型更改为 JPEG，以提高速度和减小文件大小，同时最大程度地降低质量损失

12月3日 v1.0.1

错误修正和解析改进

修复大量杂项错误，包括编码、空白页问题和图像渲染
通过连接和嵌套改进列表处理
添加引用
稍微提高性能

11月28日 v1.0.0

这是marker v1 的版本，从头开始完全重写。

采用新的布局模型，速度提高 2 倍
块和页面的一致内部架构
模块化架构，处理器和渲染器可轻松覆盖
JSON 块和 markdown 输出
大量单元测试
更高的输出质量

v0.3.10

性能改进，API 服务器

提高性能 10-15%
为本地用例添加一个简单的 API 服务器

v0.3.9

拼合 PDF、修复页面分隔符、修复 torch/transformers 错误

修复 transformers 4.46 和 torch 2.5 的问题
改进页面分隔符 – 它们现在出现在页面的开始处，并显示页码
在提取 Markdown 之前将表单字段展平到 PDF 中

v0.3.8

修复表格错误

修复当设置了 start_page 并且文档中有表格时导致转换失败的错误

v0.3.6

加速、修复错误

修复一些极端情况下的 OCR 错误
通过改进布局和文本检测，端到端加速约 20%

v0.3.1

修正错误，提高输出质量

修复 torch 2.5 的 MPS 错误
修复零线块的标题错误
提高视觉框与文本框偏移时的输出质量

10-18 v0.3.0

更好的表格、改进的输出质量、标题级别

集成自定义表格模型以实现更好的表格渲染 – 这使用了最先进的开放表格模型

Markdown 输出

调整块检测以全局改善 markdown 输出
以更好的方式将布局标签分配给块 – 将提高整体质量
Markdown 输出中更好的行距
将脚注推至页尾

标题级别

添加对标题级别的检测，例如#、## 等。
添加计算目录

错误修正/杂项

修复分页不起作用的错误
使用调试图像输出进行更好的调试
Python 3.13 支持

Marker一键启动整合包软件使用说明：

待处理文件(夹)：需要转换的文件或是所在的文件夹，用鼠标左键单击文件或是文件夹按住拖动到程序窗口里，文件或是文件夹路径会自动填充到文本输入框中

禁用图片提取：PDF中有图片的话默认会提取出来，可以开启这个选项禁止提取图片

输出文件分页：是否对输出文件进行分页处理

禁用多进程：是否禁用多进程处理

OCR语言：如果进行OCR识别可指定语言，中文为zh,英语eng,法语fra,德语deu，其它语言代码可以查看我另一篇文章《语言名称及简写代码两字母三字母代码对照表》，如果输入多个语言可用英文逗号,隔开，如：eng,fra,deu

强制OCR：是否强制对整个文档使用 OCR

页面范围：想要识别转换的指定PDF的页码，页码从0开始。如果只想转换PDF文档中的第2页，输入框里可以填1，如果想要转换多个不连续页面的话，可以按下面规则设置：1,5-8,11，即转换第2、6-9、12页的PDF内容。中间为英文逗号,和-

重建OCR：删除文档中所有现有的OCR文本，并使用surya重新进行OCR。

输出格式：软件默认输出md格式，如果想要输出JSON和Html格式的话，可以在下拉列表中选择

启动调试：是否输出软件执行过程中的调试信息。

处理器：

marker.processors.LineBuilder：用于构建文本行。
marker.processors.LineMergeProcessor：用于合并文本行。
marker.processors.LLMTableProcessor：使用 LLM 处理表格。
marker.processors.LLMTableMergeProcessor：使用 LLM 合并表格。
marker.processors.TableProcessor：用于表格识别和处理。
marker.processors.LLMEquationProcessor：使用 LLM 处理数学公式。
marker.processors.LLMInlineMathLinesProcessor：使用 LLM 处理行内数学公式。
marker.processors.LLMMathBlockProcessor：使用 LLM 处理数学公式块。
marker.processors.LLMHandwritingProcessor：使用 LLM 处理手写内容。
marker.processors.LLMImageDescriptionProcessor：使用 LLM 生成图像描述。
marker.processors.LLMFormProcessor：使用 LLM 处理表单。
marker.processors.LLMComplexRegionProcessor：使用 LLM 处理复杂区域。
marker.processors.LLMSimpleBlockMetaProcessor：使用 LLM 处理简单的块元数据。
marker.processors.TableConverter：用于表格转换。
marker.processors.PdfConverter：用于 PDF 文件转换。

总分块数：指定任务总分块数，用于多任务并行。

文件总数：指定最多处理的 PDF 文件数量。

工作进程数：可以指定同时进行多少个处理任务，每个处理任务占用显存3.5G左右，如果你的显卡显存比较大的话，可以调高这个值，加快处理速度。

跳过已有文件：跳过已存在的转换文件

1.6.1版本整合包增加了对大语言模型的支持，辅助优化生成结果

Google Gemini API申请教程：https://nuowa.net/1431

注意事项：

软件运行主要依赖于GPU，建议英伟达显卡显存在2G以上的用户使用。

如果软件运行中出现:ValueError: max() arg is an empty sequence类似错误，是由于你这个PDF文档排版有问题，无法检测到布局，这是在选择整个文件夹进行批处理中会遇到的问题，如果批处理时某个PDF文档无法处理，你可以选择单独处理这个PDF文档。

支持Windows 10或11，不支持手机和MAC

Marker 1.6.1版一键启动包下载链接：

此内容仅限VIP查看，请先

可通过每日签到获得积分兑换VIP

AI软件用不了？2元爽玩4090：立即体验>>

热门大语言模型API免费体验：立即获取>>

软件催更及1对1人工答疑支持： https://nuowa.net/1806

PDF/EPUB转Markdown/HTML软件Marker v1.6.1 2025-03-21版

Marker简介

Marker一键启动整合包软件使用说明：

注意事项：

Marker 1.6.1版一键启动包下载链接：

相关推荐

最近更新

Claude 再放大招，Sonnet 5 来了

AutoVidDub支持分角色配音的全自动视频翻译配音加字幕工具

极速轻便声音克隆语音合成软件MOSS-TTS-Nano整合包，CPU可流畅运行

最强分说话人语音识别工具，支持批量音视频识别转字幕，字幕翻译内容总结

最强PR中文视频自动语音识别生成字幕插件，语音识别准确率高支持多国语言

祝贺凡人修仙传2026年新年番开播同时在线人数超64万

Premiere Pro静音片段自动剪辑插件——Silence Remover使用教程及下载

蛙蛙写作-能替你"打工"的AI写作平台，附邀请码：UZekHC

PDFMathTranslate + MinerU 批量PDF全文双语翻译转Markdown工具

Claude居然自称“本人”

热门文章

觉得文章对你有帮助就打赏一下作者

非常感谢你的打赏，我将有更多的动力继续提供优质内容，让我们一起创建更加美好的世界！

支付宝扫一扫

微信扫一扫