本次和大家分享一个非常热门强大的PDF文件内容OCR识别软件OCRmyPDF,这个软件可以将PDF内不可搜索的图片和文字识别转换为可复制可搜索的文本,并对PDF文件进行优化。

OCRmyPDF介绍
OCRmyPDF 为扫描的 PDF 文件添加 OCR 文本层,以便搜索
- 从常规 PDF生成可搜索的PDF/A文件
- 将 OCR 文本准确放置在图像下方,以方便复制/粘贴
- 保持原始嵌入图像的精确分辨率
- 如果可能,以“无损”操作插入 OCR 信息,而不会破坏任何其他内容
- 优化 PDF 图像,通常生成比输入文件更小的文件
- 如果需要,在执行 OCR 之前校正和/或清理图像
- 验证输入和输出文件
- 将工作分配到所有可用的 CPU 核心
- 使用Tesseract OCR引擎识别100多种语言
- 保护您的私人数据不受侵犯。
- 适当扩展以处理数千页的文件。
- 经过数百万份 PDF 的实战测试。
OCRmyPDF整合包使用说明
OCRmyPDF依赖其它外部程序Ghostscript和Tesseract,网盘内有安装程序,全程保持默认安装即可
安装Tesseract最后一步会自动下载英文的语言包文件,有的人可能会无法下载,可以直接cancel取消跳过,到我网盘里下载需要的语言包放到Tesseract安装目录内的tessdata文件夹内
然后将软件压缩包OCRmyPDF.7z下载到本地电脑上并解压,然后双击【启动软件.exe】打开软件
首先选择待处理文件,可以是PDF也可以是图片,也可以输入文件夹路径批量处理文件夹内所有文件。
批处理功能做的比较简单,所有文件是同时处理的,所以建议待处理的文件夹内不要有太多文件,否则可能会比较卡。而且待处理文件夹内不要有PDF和图片以外的文件。如果待处理的文件夹内有图片,批量处理还要设置【图片DPI】值
【OCR语言】默认只支持英文,识别其它语言的话需要下载支持文件.traineddata,常见语言网盘里有,把.traineddata格式文件下载到tesseract安装目录tessdata文件夹内,语言代码如下:
简体中文:chi_sim
繁体中文:chi_tra
德语:deu
法语:fra
日语:jpn
韩语:kor
俄语:rus
泰语:tha
缅甸语:vie
识别英语可以不用填写,识别其它语言的话需要在输入框中输入语言代码。如果是多种语言的话可以混合输入,识别中英文的话可以输入:eng+chi_sim
其它国家语言代码对照表:https://nuowa.net/1796
其它语言包文件下载链接:https://github.com/tesseract-ocr/tessdata
【重新OCR】强制对每页重新渲染并 OCR
【跳过文本】跳过已有文本的页面(仅处理纯图片页)
【重新OCR】和【跳过文本】不可同时选中
【校正倾斜】自动校正页面倾斜(提升 OCR 准确率),比如扫描出的PDF文档内容是倾斜的,可以开启此项功能
【清理伪影】清理扫描伪影(如黑边、噪点)并将处理后的图像嵌入最终 PDF
如果需要使用【清理伪影】功能,则电脑上需要安装unpaper,unpaper安装步骤如下:
首先安装Chocolatey,以 管理员身份 打开 PowerShell,运行以下命令:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://chocolatey.org/install.ps1'))
安装完成后关闭终端,再重新打开终端,然后运行下面命令:
choco install unpaper
【图片DPI】处理图片文件的话要指定该值
【输出格式】默认输出 pdfa
存档,pdf
格式修改最小,还有pdfa-1,pdfa-2,pdfa-3等
【标题】自定义 PDF 元数据标题
【指定页面】只处理指定的PDF页面,填数字如1,2,5-8,逗号和连字符都要用英文符号
【线程数】设置并行线程数(默认使用所有 CPU 核心)
【输出txt】生成独立的txt格式的OCR 文本文件(用于校对或文本分析)
【图像压缩级别】0无压缩,3最高压缩(最大节省空间)
使用【图像压缩级别】功能的话,电脑上需要安装pngquant, PowerShell运行下面命令安装
choco install pngquant
视频教程及效果演示:https://nuowa.net/1799
注意事项
整合包只支持windows10或11
软件运行路径中不要有非英文字符和空格,待处理文件同样要注意
PDF OCR识别转文本软件OCRmyPDF下载链接
相关推荐
最近更新

pixi包管理器简易教程系列:入门之创建项目及激活虚拟环境
pixi是新一代包管理和环境管理工具,安装python依赖包非常快,用了几次感觉还不错,记录一下个人学习使用pixi的一些经验。 Linux系统安装pixi方法 或是 wget -qO- https://pixi.sh/install.sh...

comfyui视频人物换主体工作流及模型下载
本次分享一个好玩的视频人物换主体工作流,本工作流可以使用一张图片中的主体替换视频中的人物主体。比如抖音上很多热门的猴子炒饭,奥特曼炒饭,猴子vlog等等,都可以使用人物主体替换把原来视频中的人物替换成指定的人物。 comfyui工作流节点使...

github.com镜像加速网站,解决无法访问下载速度慢的问题
github.com是全球最大的开源社区,上面有着大量的优秀的开源应用。特别是当前AI极速发展,各种AI应用层出不穷,极大的方便了我们生活办公。但是由于网络原因,有时候github.com从国内可能无法访问,要么就访问速度极慢,不能方便快捷...

comfyui工作流软件官方原版windows版一键启动整合包下载
comfyui是目前非常热门的一个应用,它使python应用可以图形化以节点的方式直接拖拽使用,使用起来非常方便,而且可以与其他python应用节点配合使用,大大丰富了comfyui的功能,而且网上大量平台可以下载到各种的comfyui工作...

视频人物动作迁移wan2.1 VACE comfyUI工作流及模型下载,一键人物动作复刻
本次分享一个非常好玩的视频人物动作迁移comfyui工作流,可以通过文生视频或图片转视频将视频素材中的人物动作复制到新生成的视频人物中,视频生成模型主要使用了wan2.1 VACE模型。 comfyui工作流节点使用说明 首先打开网盘链接将...

凡人修仙传动画韩立高清图片壁纸素材AI绘画图集
恭迎韩天尊! 祝贺韩天尊顺利结婴! 热门国漫凡人修仙传动画已经更新了5年了,最新一集,主人公韩立顺利结婴,成为一名元婴修士。我属于是比较喜欢看动漫的,看过的动漫估计没过百也得大几十了,热门国漫大多都看过。凡人修仙传算是最喜欢的动漫之一,韩立...

凡人修仙传动画紫灵高清图片壁纸素材AI绘画图集,AI国漫女神系列
凡人修仙传动画乱星海第一美女紫灵是大家非常喜欢的一个角色,动画人物造型精美,是众多女性角色中最受欢迎之一,热度极高。很多人喜欢收集紫灵的图片,但是视频里截图的话可能截不到喜欢的图,下面分享一些紫灵的AI绘画图片素材,图片都是SD生成的,都是...

凡人修仙传动画宋玉高清图片壁纸素材AI绘画图集,AI国漫女神系列
凡人修仙传动画里宋玉是大家比较喜欢的一个角色,动画人物造型精美,当前热度极高。虽然凡人修仙传原著里只是韩老魔的弟子,但是很多短视频创作者非常能整活,已经把宋玉纳入韩老魔后宫了。很多人喜欢收集宋玉的图片,但是视频里截图的话可能截不到喜欢的图,...

凡人修仙传动画人物梅凝高清壁纸素材AI绘画图片,AI国漫女神系列
有些人比较喜欢凡人修仙传动画里梅凝这个角色,视频里截图的话可能截不到喜欢的图,下面分享一些梅凝的AI绘画图片素材,图片都是SD生成的,都是高清大图,非凡人修仙传动画视频截图。部分梅凝图片如下: 图片及模型文件下载链接: https://pa...

凡人修仙传动画人物范静梅高清壁纸素材图片,AI国漫女神系列
本次分享的是凡人修仙传动画人物范静梅的AI图片素材,图片都是SD生成的,都是高清大图,非凡人修仙传动画视频截图。部分范静梅图片如下: 图片及模型文件下载链接: https://pan.quark.cn/s/1db938d95057 如果想自...