百科问答小站 logo
百科问答小站 font logo



想把自己的书籍扫描成PDF,什么样的扫描仪比较合适? 第1页

  

user avatar   bai-e-ji-94 网友的相关建议: 
      

籍扫描成高清pdf的方法:

我经常扫描,

手机 和。一块玻璃就行 。玻璃压着纸面拍摄,完全无视纸面的扭曲,,,和平板扫描仪相同的平整度哈。。。翻页速度却秒杀平板扫描。。。

先扫描单页再扫描双页,最后合并一下。 拍摄速度快到停不下来。。。

手机用蓝牙遥控器,这样可以专心翻页。 拍摄速度快到飞。。。

手机不要用广角端,用长焦端镜头畸变小。数码变焦不算。

外加一个鞋盒子(或纸箱子)(如要求高可制作金属v型架)。。。 能实现超快速大概就是你能翻页多块就能拍多块。

截至目前(2021.7月)教程字数一万三千,我更新了一年多,还会一直更新,因为各家的技术每年都在进步,从我的ocr系统,到马健老师的cep系统。

特别是wmjordan老师的pdf补丁丁,已经更新了十年了。。还在持续更新。。

还有扫描的硬件方案,一年来都有重大更新,估计不到五万字停不下来哈哈。。

本文的目标:

  1. 实现快速扫描整本书。
  2. 实现批量优化扫描出来的图片。
  3. 实现批量生成pdf.
  4. 实现批量优化他人制作的不清晰的扫描PDF
  5. 把网上下载的不清晰的pdf识别成清晰的文字版pdf或者txt(自制ocr软件下载见附件5)
  6. 实现私人电子图书馆

教程目录:

0、扫描套装DIY示意图:

1、图文处理:软件用scan-tailor

2、Pdf修改:pdf补丁丁

3、Scantailor处理效果:

4、scan-tailor界面:

5、鞋盒子 玻璃 外观 方案硬件更新等

-----5.1 书籍扫描仪套装2.0升级版 清单

-----5.2 2.0升级版相机选择及设置

-----5.3 2.0升级版软件 EOS Utility 设置

-----5.4 2.0升级版超白玻璃

-----5.5 2.0升级版v型书架

-----5.6 2.0升级版灯光(选配,可以不用)

-----5.7灯光升级方案2(选配,较为推荐,但也可以不用)

-----5.8快门线

-----5.9 450d相机设置参数汇总

6、遇到的问题:镜面反光

-----6.1 方案二 双偏振镜解决反光

7、comicenhancer pro4批量优化教程(有视频教程)

-----7、1黑白模式,放大 ,高斯模糊放大:

-----7、2启用抖动算法:

-----7、3开启usm锐化:

-----7、4.加大缩放

-----7、5.其他设置

-----7、6.2021年7月 最新版cep5 特性介绍

-----7、7.漂白背景发灰发黄的pdf

8、comicenhancer pro4设置参数的保存和复用以及批量执行最终优化(有视频教程)

9、comicenhancerpro4扫描的书籍优化效果展示

10、pdf补丁丁的使用

-----1、配置

-----2、奇偶页图片合并

-----3、tiff图片合并成pdf:

-----4、pdf书签导出:

-----5、pdf书签导入:

11、奇偶页合并之2

12、关于comicenhancerpro4

13、Pdf导出图片 Pdf补丁丁(有视频教程)

14、合并tiff Pdf补丁丁

15、关于批量ocr 使用python编程。

16、关于双层ocr的pdf

17、关于奇偶页改名方法(最终)(有视频教程)

18、关于批量ocr 之pdfelement

-----18.1 如何使用pdfelement进行高品质ocr。

-----18.2 如何减小识别后的pdf体积

-----18.3 印影版扫描书籍和影印版ocr处理后的画质对比

-----18.4 pdf和ocr辅助工具四件套(本人原创)

19、关于馈纸式扫描仪

20、关于书籍扫描技术路线的汇总

21、关于私人图书馆建设


附1:comicenhancerpro 设置参数:

附2:ComicEnhancerPro_Para的四个配置参数。

附3:真实制作案例:百度网盘分享真实制作成果pdf。

附4:所有用到的工具的下载:

附件5:自制ocr软件的教程和下载地址

附件6:ReNamer Lite 奇偶页文件改名工具下载地址

附件7:comic enhancerpro 5.05 (2021年7月)最新下载地址

附件8:pdf和ocr辅助工具四件套 下载地址







0、扫描套装DIY示意图:



老外原版是这样的:

scan-tailor处理后,最终效果非常好,印刷级,秒杀所有后期软件。详细用法自己体会学习。

我的主要阅读设备

Iphone 5.5英寸

华为8.4寸平板


1、图文处理:软件用scan-tailor

(还有一个效果一样好:comicenhancerpro4 现在我日常用这个较多,速度比st快很多,2021年最新版是5.05,增加了非常多的新功能,在这里给软件作者马老师点个赞!)

奇偶页混合工具:renamer lite,文件批量改名, pdf补丁丁 , 或pdftk

Pdf扫描版转图片(无损):pdf补丁丁

Tif图片转pdf:pdf补丁丁

pdf目录书签半自动制作:pdf补丁丁

批量Ocr:自制python程序对接百度ocr.

批量ocr:pdfelement


2、Pdf修改:

Pdf书签目录导入导出:pdf补丁丁

扫描版pdf无损导出成图片:pdf补丁丁

Pdf分割,合并:pdf补丁丁 。 只有这个软件能够合并分割完毕后还能保留原有的书签目录。其他软件都会丢失。


结论:我的方案速度秒杀一切平板扫描仪,传统高拍仪;扫描质量还是印刷级。


更新:2019年7月14日,

重大更新:黑白后期方法增加抖动算法,扫描效果比原先好了一个级别。! 详情见本文的comicenhancerpro4部分的具体更新的内容。

另 评论区有位朋友前期拍摄中好像用的无损灰度扫描,臊出来效果超级好,这提醒了我要实现拍摄的无损化,最好利用手机的raw图片或者dng图片格式无损拍摄。jpg损耗较大。


3、Scantailor处理效果:

原文:

scan-tailor处理后

原照片正文放大:

其他软件处理:

scan-tailor处理:

有没有秒杀的效果。。。 完全是数字化文字的边缘

经过反复测试 comicenhancerpro4也能达到这个效果,自由度更大,,速度更快。。。。 大家选择合适自己的来用。纯文本两个软件都好用,图文混排我推荐comic ,下文会讲原因。


4、scan-tailor界面:

真实隔着玻璃拍效果

注意:经过实践,这种效果没法进一步优化,因为拍出了大量阴影。解决方法请继续看下文。。


5、鞋盒子 玻璃 外观

2021.7.6思考和更新: 这套方案对于页数超过300 400页的书籍,拍出来可能会导致页面切边麻烦,因为翻页后拍照平面变了,文字会逐渐变大或者变小。

解决方法:

正好手头有一个微距摄影的微动平台,准备手机或者书籍加到这个平台上,这样整体实现翻页厚度补偿,使得拍照平面到传感器的焦距稳定在一定公差范围内(几个毫米)



微动补偿方法

可以补偿16cm 足够用

比如一本250页的书也就15mm 厚度。 换算一下 , 每12页调一下微动按钮就行,也就是1mm .整本书也就调10次搞定。500页的书调20次左右。

我买的便宜微动云台,模糊控制吧。。有米的买步进云台,精确一次一mm

2021.7.6

今天同时制作的一个升级版不锈钢鞋盒 哈哈再也不用纸鞋盒了!

斜面焊接

两天内就能做完了 。

5.1 扫描仪2.0升级版(2021年7月)

经过一年,我目前正在升级自己的扫描仪套件,手机升级为相机,增加电脑控制相机拍摄,增加脚踏板拍摄,升级鞋盒子为不锈钢书架。等等。。

作为一般用户 可以继续用手机,鞋盒子。,如果感觉手机画质不满足自己要求,鞋盒子不稳当,可以看完这个第五章内容,否则跳过。

如果是纯懒人并且不排斥拆书,(我大多数情况下也是懒人)建议看我下文的买个富士通6135zla扫描仪拆书扫描,喝着茶就能完成书籍制作。(需要拆书)

2.0版方案设备清单:

电脑

佳能单反相机

eos utility软件

电脑踏板

Minisb线3米

金属v书架

木质书架表面

书架表面防滑垫

思锐1005三脚架

微动云台 大于30mm行程

sp660ii闪光灯

神牛ct-16通用型引闪器

绳子若干

超白玻璃

热熔胶固定书架和桌面

两个led光源辅助对焦

快门线一条

Diy灯架子若干

黑幕布若干

miniusb线一条

2米高可伸缩摄影灯架

5.2 2.0升级版之相机选择和设置

家里正好有一台吃灰十几年的佳能450D相机,所以把他替代了手机作为扫描仪使用。

这台相机为apsc画幅,比苹果手机传感器大得多的多。。。

测试了一张照片(原始jpg,未后期处理),效果非常不错,比iphone6sp画质好的多!扎实的画质!

镜头我选用的佳能小痰盂 50mm f1.8 这个放在450D 正好实现了75mm等效焦距,不会出现手机端那种广角镜头的桶形畸变。

增加一个微动云台 进行翻页的补偿焦距

这个样子,黑鼠标垫(背景幕布)还没到货,其余全部调试完成了!

相机接上快门线,接上引闪器。

灯光目前两套方案,一个是沿用初始版本灯光方案,还有一个是双偏振镜方案,都详见后文。


画质非常的扎实。

相机的设置在电脑端进行,详见5.3教程。

买一根mini usb线就能链接电脑了!

又买了一个usb踏板,连接电脑,实现脚操控快门!

5.3 电脑端操控相机之 EOS utility软件 设置,操作。(实测发现这个方法无法解决450d的自动对焦问题,最后改用了快门线方案)

操作步骤:

打开EOS utility

这时候相机打开,usb线保持链接电脑

电脑识别出了我们的相机 kiss x2(450D)

点击第三项,“相机设定,遥控拍摄”

这时候可以看到设置界面了:

可以操作和设置相机,拍照。

设置如下:

0 相机设置为m挡 镜头设置为m挡 打开灯光

图框1 设置快门时间,根据左侧的实时观察窗口查看亮度来进行相应的快门时间设置,设置快门速度,

点击“实时显示拍摄” 就能观察到亮度和对焦情况

图框2 设置光圈为f11 -f5.6 千万别用大光圈,大光圈非中央区域会模糊虚化。

图框3 设置白平衡 荧光灯

图框4 iso设置为400-500 画质兼顾速度 有强光源直接可撸100

图框5 图像大小设置为L 最大。

图框6 重新设置1 调整曝光时间。 80分之一秒-500分之一秒 (我的桌子不稳,所以提高快门速度 如果你在石头墩子上扫描 可以设置8分之一秒也行) 闪光灯可以万年200分之一秒,,

我目前的参数:f5.0光圈 二百分之一秒快门 iso400

我的桌子和灯太烂了 你们可以上好灯然后f5.6-f11

7 点击图框6处 这个圆形按钮就是拍照键,我们可以测试一张,不合适再微调各个参数。

查看一下,如果合适,我们就能进行后续调整了。

不合适和别的页重拍就行。

5.4 超白玻璃升级改造

上图我们会发现,左侧有一部分左侧页面我们不想要,所以需要升级超白玻璃。

超白玻璃左侧增加一块硬纸板,处置贴到超白玻璃左侧边缘。

这样,就可以遮挡住左侧不需要的页面和文字。

最后,硬纸板贴一块黑色软布,就摸出黑色背景效果。

5.5 V型书架升级

最近找朋友做了一个不锈钢v型架子,这下再也不用那个软绵绵的鞋盒子了哈哈!

家里装修剩下两块a4大小的木板,正好作为底板贴到了架子上,形成了v型台面。

最后,v型台面贴上黑色幕布,完成北京黑色化。

这样,除了书籍正文,其他部位都是黑色的背景了,后期处理方便了很多!

背景黑幕化:

用瓦楞纸板裁切成大约280mm*420mm的纸版,两片。

把纯黑色布面鼠标垫裁切相同的尺寸,两篇。

用手工胶水把鼠标垫粘到瓦楞纸上。

放到v型书架的两个面板上,热熔胶粘几个点固定住即可。

这时候拍书,背景都是一片漆黑,方便cep的后期裁切。

目前用的小黑垫子 将来会扩大一倍

玻璃板另一侧黑幕化:

使用一点摄影黑幕布,粘到超白玻璃书籍中缝这一边。

这样,拍奇数页的时候,黑布会遮挡住偶数页,拍偶数页的时候,黑布会遮挡奇数页,完美解决裁切问题!

5.6 灯光升级(选配,可以不用)

详见6.1的双偏振镜方案。

5.7灯光升级方案2(选配,较为推荐,但也可以不用)

同旧方案一样的角度,挂在书的上方,但是撤掉了led灯,换成了sp660ii闪光灯,使用无限引闪器进行同步曝光。

首先架设好灯架子,这里使用了两个。然后把闪光灯装好电池,平躺在两根架子上,灯朝向书面方向。

用绳子轻轻地把闪光灯固定在两根架子上。

相机热靴处插入引闪器发射端,调整1,2号频道开关到下方。闪光灯尾部热靴接口插入引闪器接收端,调整1,2号频道开关到下方(同发射端同步),打开闪光灯,引闪器两端的开关。

相机依然设置为手动模式m档,镜头设置为自动对焦档。这里注意的是,eos utility软件好像不能触发闪光灯,所以我们使用脱机模式,拔掉连接电脑的数据线,接上450D相机的快门线。

闪光灯设置为32分之一的光照亮度,焦距设置为24mm,因为闪光灯就在书页上方很近,不需要长焦,太过于聚集。闪光灯模式设置为m档。

5.8 快门线

花了十几元买了一条,拿来插上就能用,很方便!

使用cannon utility软件时无法使用快门和快门线,只能二选一。最终用了这个方案。因为对焦方便。翻一页,半按快门对焦,然后按下去拍射。 很方便。

观察画面:通常我拍一两张测试页,然后回放一下,进行微调即可。

5.9 450D相机使用参数(还在不断优化中):

光圈f9,

快门200分之一,

iso 100,

白平衡自动,

镜头自动对焦(快门线半按),

相机文件精度选择L(也就是jpg最佳最大画质,不要选L+RAW 这里扫描书籍不需要RAW,只有在扫描画册时候,选择RAW),

镜头50mm佳能小痰盂,

用的闪光灯高挂方案时候:

闪光灯强度十六分之一,

闪光灯补偿+0.3ev

其他灯全部关闭,只开一个3w的小灯辅助相机完成对焦。

使用光学取景器调整好画面中书页的位置,我们就可以试拍了!拍摄的时候,轻按快门线快门按钮,滴的一声,对角完毕,然后全部按下,完成拍摄,照片储存在存储卡上。

连接电脑,手动上传照片到电脑,然后开始后期处理。。


6、遇到的问题:镜面反光

是的我也遇到这个问题了 我想了一些对策

1 换成亚克力玻璃

2 使用侧光

3 使用柔光光源

4 使用偏振镜

5 使用同轴光源

2019.6.30更新:基本解决我的8mm超白玻璃镜面反光问题

解决方法:

1 增加灯光亮度 我原先一盏灯,现在外挂两盏灯 一共三盏灯 解决局部阴影

2 抬高灯光高度 原先是侧光 很近 这样阴影太多,直射无阴影但是有反光,综合一下,抬高光源高度,我这个纸面中心和灯光中心距离大概42cm垂直高度 太高太低太偏太正都不理想。

原理大概就是使用面光源好于局部光源。

光源太高会出现一种新的反光,

光源太低纸面有大面积阴影,

光源太正灯光的反光会跑到纸面,

光源太偏纸面会有更多阴影。

最终调试大概是这种角度:

这个是原始的手机拍摄效果,灯光改善以后效果非常好,纸面部分的反光和阴影都不存在了。

遇到的问题2:梯形失真

更换手机的长焦镜头解决。默认28mm镜头除了不平行的梯形失真还有镜头本身的桶形失真。 更换50mm等效长焦 或75mm镜头 搞定!

6.1 解决反光 双偏振镜(2021.7.9)

经过一年多寻找,忽然今天在保富图b站官网找到了解决反光的方案。双偏振镜方案。

光源套上偏振镜,同时相机套上偏振镜,简直完美!

原理就是, 1 .把光源也转化为偏振光源。

2.偏振光经过物体后,首先反射回来的是偏振光,之后是漫反射光。偏振光被第二偏振镜阻挡在外边。

单偏振镜和双偏振镜方案最终效对比果如下:(差别太明显了!)

摄影灯架(旧方案的灯架升级用 非偏振镜方案用):

我选用的2米高的可伸缩灯架,随意调节高度,直到没有反光为止。

7、comicenhancer pro4批量优化(扫描拍好的jpg图片)教程

这个是通过comicenhancer pro4 切边,转换为黑白的tiff后的效果

很多朋友反映scantailor太慢了,确实慢,所以这个备用的软件已经上升到主力软件了。。因为很快,快很多。。。而且能够切边,纠正倾斜,获得黑白tif,加粗,锐化,曲线,高斯模糊,等等。。。。。。



具体方法:

视频教程:

cep4 基本操作 视频教程 https://www.zhihu.com/video/1401175664037326848

文字教程:

首先把扫描好的照片放到一个目录,

用comicenhancerpro4打开目录下的随机的一张照片,进行预调整:

预调整:

调整缩放160% ,色彩设为黑白 ,高斯模糊0-1.4看情况毛边多就设置大一些,曲线中部往下拉一拉,gamma略微调大,,然后保存这个黑白的预设,以后可以重复调用。

然后开始设置切边

勾选红线部位左侧,自动纠正倾斜,半自动切边。

右侧分为两个情况,红线为手选,然后绿色框自动在红线范围自动捕捉内容切割。实现了半自动化精准切边。

初学者这时候可以测试一下 ,软件左上角那一排快捷按钮第三个按钮就是批处理功能。

打开后设置输出格式为tif. dpi.设置dpi为600,设置输出目录为自定义一个目录名。

预调整功能是调一张就够,批处理是按照这个预调整参数处理整个目录所有照片。


2019年7月14日:

重大更新:图像后期方法更新,画质比以前好了一个等级~!

更新动机:前一阵学习python,偶然间发现一本电子书《Python爬虫开发与项目实战》竟然比我用的后期处理方法的画质好了一个级别,一直感觉这方法对我就是个迷,怎么会有这种神画质!

这。。。这。。。这么干净的极致画质怎么实现的???心里曾经一万个问号!~!

经过酝酿好久,,今天终于研究通了!!原来comicenhancerpro4 中,已经预制了这种功能!!

他就是:黑白模式+抖动算法+usm锐化+高斯模糊+放大! 抖动和usm锐化是重点更新的内容

7、1 黑白模式,放大 ,高斯模糊放大:参照本教程上边的方法有讲述。

7、2 启用抖动算法:

什么是抖动算法?简单讲就是通过很小的点把复杂的jpg像素转化成相对简单的一种排列方式,节省存储空间,同时大大提高了锐度!这个算法还能图文混排, 图片不再让人反胃。 类似于素描+针式打印机的效果。我差点和她失之交臂!这个才是我的真爱!!

Comic官方文档关于抖动算法的解释:纯黑白图像的抖动,就是用不同密度的黑点来模拟不同的灰度。可以选择不同的抖动算法,实在不知道该选哪个就都试试: JJN:经典Floyd Stainberg算法的改进。相对于经典Floyd Stainberg算法,JJN算法更突出边界,因此对比度保持较好,而且不容易出现规则条纹。


参数面板中打开‘其他‘ 选项卡,选择‘彩色’按钮。

‘彩色设置’选项卡打开后,勾选‘抖动’

7、3 开启usm锐化:

什么是usm锐化?简单说就是ps中优化图像中局部中的边缘清晰度的算法。我认为是ps中仅次于曲线的又一个神功能!我们的cmic软件竟然也有!我之前没注意哈。。差点错过真爱!!。。

Comic官方文档对usm锐化的解释:USM锐化 与Photoshop中的同名功能类似。与前面“锐化”、“调节”的区别是:锐化、调节对图像的每个像素都是公平的,逐个像素用3×3或5×5做卷积,因此在使文字、线条边缘更锐的同时,其他地方也可能会锐得出现麻点。而USM锐化一般只对文字、线条边缘有影响,对图像其他地方基本没有影响,因此现在的Photoshop教程中逐渐建议用USM锐化代替常规锐化。

打开usm锐化面板:

设置usm锐化参数如图 ,你们实际设置中酌情设置。我这里是个参考值

来一组处理前后的直观对比:画质比单纯黑白模式又提升一个等级!!

按照一个网友的评价就是:画面干净整洁!实现了高级灰!

7、4.加大缩放

如果你是极客或者画质强迫症,不考虑文件大小,还有一招,就是 缩放

70%缩放 图文混合一页纸大概10-80k 一本书大概10m 画质为最普通

100%缩放 一页纸120k左右 一本书10-30MB 画质普通 普通人用这个足够了 或者120%也行

极客 强迫症请把缩放打到130-200% 画质666 就是文件体积大了一些

比如

原始版面3600×4600左右 就设置120-160%放大

原始版面2400×3600左右 就设置170%放大 (日常使用)

原始版面小于1200×2400 就设置190-200%放大


7、5.其他设置

高斯锐化加一点点,饱和度加一点点。这俩就在高斯模糊那个界面。版comic版本是4.19

gamma可以多家加一点

对比度 亮度 加一点点就够。


图片的后期画质优化方法,可以告一段落了。


7.6 cep 5.05 2021年7月最新版 新特性介绍

最近用了最新版的cep,作者马健老师真是强,单独开发了书籍制作界面,各种新特性,做书更方便了.

主要新特性如下:

特性1.增加了单独的书籍制作界面,操作更集中,方便

特性2.增加了梯形校正功能。拍斜的书籍也能矫正回来!

特性3.曲面展平功能,不压玻璃板都有机会拍出不错的效果。

特性4 增加黑白文字功能,一键转黑白文字版

还有黑白+红章功能


由于马老师自带详细教程,我就直接附件7上传了详细教程,这里暂时不细说。

未来可能上一个视频教程在这里。

7.7 漂白背景发灰发黄的pdf

网上下载的pdf和我们自己制作的pdf,有时候背景没处理过,发灰,发黄,可以这样进行漂白处理

第一步: pdf补丁丁把下载好的pdf扫描文件中每页图片解压出来。使用“提取图片”界面。

第二步:cep中使用我附件中的预设[wolf算法 纯文字],把书籍转化成纯黑白,这时候就漂白了。黑的地方更黑,白的地方更白。(针对纯文字的扫描pdf)

图文混排漂白的话,有点困难,需要画质上边做取舍。。目前最好的方案是:使用我的附件中的第五或者第六预设(带有ocr字样),进行轻度锐化加亮,然后使用pdfelement进行ocr。出来以后就是纯白界面背景。但是此方法必须要求扫描质量非常高,至少400dpi的分辨率质量。

纯图片就不需要漂白了,可以用cep进行gamma值,对比度,明暗等的极轻度加工。。

第三步:pdf补丁丁把漂白好的图片重新合并成pdf。完毕。

第四步:书签移植:源pdf有书签的话,用pdf补丁丁导出源pdf的书签文件xml格式,再把书签文件导入书签到漂白pdf中。


cep4 和cep5的漂白背景方法汇总:

cep4 5:

方法1 通道---通道混合---灰度

方法2 通道---通道混合---乌贼漂白

cep5独有:

方法3 扫描书籍处理---色阶---白色吸管---发黄发蓝的背景处单击一次---力度不够再附近单击一两次背景

方法4 扫描书籍处理---色阶---自动漂白1(2,3,4)

方法5 扫描书籍处理---黑白文字




8、设置的保存和复用:

修改一次就可以保存设置,并且无限次调用。

复用别人设定好的参数:

打开comicenhancerpro的软件根目录,找到ComicEnhancerPro_Para.ini,打开

把我附录2中的四个参数全部拷贝进来,或者拷贝其中的任意若干个。

参数名用方括号括起来。

更简单一点 ,附录4有我制作好的comicenhancerpro软件包,直接用那个就行。

cep调入我预设的参数视频教程:

https://www.zhihu.com/video/1396046631666618368

重复的使用设置:点 调入- 选择一个配置-确定 然后进行图片的处理。

批量处理目标图片:调入一个设置--主界面上边工具栏中点击左上角第三个图表--新建一个存放新文件的out目录,dpi设置为600,其余不变(调用了你调入的设置)--检查输出文件名是否是tif,不是的话改成tif--右上角点击“全部转换”

好了 喝半杯咖啡去吧。。(很快的。。)

cep批处理扫描图片教程:

cep批处理扫描图片视频教程 https://www.zhihu.com/video/1396049006288551937

9、扫描的书籍优化效果展示

处理前的文字:

处理后的文字:




处理签的图像:

处理后的图像:

经过实测,这种底子扎实的原始扫描,半径设置为60左右效果很好。


10、pdf补丁丁的使用

10.1、配置

点击左上角“修改常用工具栏”

如此只勾选:合并文件 ,提取图片,导出或导入信息文件

10.2、奇偶页图片合并(觉得本方法复杂的 跳过本条, 参考条目17 最终奇偶页合并方法 很简单)

点“提取图片”把奇数页pdf放入框内。文件名掩码设置为0000A

同理,偶数pdf同样操作,掩码设置为0000B。

把他们放入一个文件夹。

然后打开合并页,拖入制作好的XXXXA 和XXXXB文件进行合并新的pdf。


10.3、tiff图片合并成pdf:

打开“合并文件”,把所有的tif,或者jpg拖入框内,然后进行合并。


10.4、pdf书签导出:

如果你要修改pdf,保留原pdf已经制作好的书签,这时可以使用:

点击“导出或导入信息文件”,把需要导出书签的pdf拖入框内,“pdf信息文件”选一个文件夹名来导出xml格式或者txt格式的书签信息,点击左下角“导出信息文件”。这里推荐导出为txt文件,因为可以在excel里快速编辑书签。

10.5、pdf书签导入:
当你优化完pdf文件,或者优化完书签,导入回pdf:

“pdf信息文件”选择修改好的书签,选择:“输出pdf文件”选择一个文件目录,点击右下角:"生成目标文件",生成含有书签的新pdf。

10.6、无损提取pdf中的图片

用cep修改优化别人的pdf时使用。

打开pdf补丁丁--点击“提取图片”--拖动pdf到原始pdf文件 这个框框中--选择输出图片位置--点击“提取图片”

如果只想提取指定页面,在页码范围中写入 比如“1,2,3,4-10,15-20”等等。

pdf补丁丁无损提取图片 https://www.zhihu.com/video/1396035325894922240

11、奇偶页合并之2

除了pdf补丁丁之外还可以用如下两款软件实现奇偶页混合:

奇偶页混合工具:pdftk,(有点复杂 详见条目17最终方法)

我们快速拍照后行成两个文件 一个是奇数页.pdf 一个是偶数页.pdf

用pdftk开始混合奇偶页:

直接用command line使用即可。奇偶页的pdf文件放到一个文件夹,和pdftk程序放在一个文件夹。命令行输入pdftk A=1.pdf B=2.pdf shuffle A B output ok.pdf Ok.pdf就是最终文件了。 当然 把这句做成一个bat批处理文件,以后就自动执行就行。

奇偶页合并工具: 文件批量改名(较简单) (本方法还是有点复杂 详见条目17 最终方法)

用改名软件 把奇数页按照1 3 5...页加前缀 0001a 0002a 0003a..... 偶数页2 4 6.....页文件加前缀0001b 0002b 0003b..... 然后放在一个文件夹

你会发现 最终顺序是0001a 0001b 0002a 0002b ...... 这种顺序 对应的真实页是1 2 3 4.......

,然后用pdf补丁丁合并。

最终版:详见条目17.(最终使用本方法)


12、关于comicenhancerpro

我追求速度时 都是用的comic enhancer pro 同样的画质 比scantailor处理速度 要快很多倍,使用纯黑白模式+曲线+高斯模糊 基本上能达到scantailor的画质 ,只是没有scantailor,智能裁剪等功能,他有半自动裁剪功能。可以用他来日常使用。

注意:要保存成tif格式,还有就是多使用他的批量处理+模板功能,图片的处理参数设置一次就行,然后保存起来单独调用。批处理时也能调用。


13、Pdf导出图片 Pdf补丁丁

支持无损导出扫描版图片

别人做好的pdf感觉扫描的模糊,可以用它导出成图片,然后用scantailor 或者comicenhancerpro来优化。我其实更多的是优化别人的pdf。知乎6000万活跃用户,如果每人制作一本书,优化一本书,那就太好了。目前的现状还是大部分扫描版pdf还是太模糊。


14、合并tiff Pdf补丁丁

飞速合成,如果有书签文件,还能连同书签一块儿合成带书签目录的pdf.


15、关于批量ocr

2020.1.16 完成了扫描pdf-txt-文字pdf的批量转换。稍后发布在github。

2020.2.9 变更发布计划,从开源变为闭源,已完成的版本会发布在本贴和我的其他知乎主题帖子中。预计时间2个月内,敬请关注。。。

2020.2.10 已经完成了累计十个版本更新,新的文字版pdf可以保留原文件的书签了,匹配了ipad iphone 电纸书 三种版式。

2-6月 计划:

Ocr系统:

人工智能判断文章各个标题,自动生成书签。二级书签深度。

人工智能判断扫描版文字大小,用来转换后排版。

双栏电子书的ocr自动识别

制作带文字层的双层pdf

扫描优化系统:

Pdf补丁丁和cep是两张皮,用多了还是不方便。。。还是不够全自动化,于是我决定开发自己的全自动扫描书籍优化软件,轻轻一拖动,自动生成优化好的扫描pdf。

计划的功能:自动导出图片,自动放大图片,自动黑白二值化,自动加粗,自动边缘锐化,自动拷贝书签,自动合并pdf等等。

总计还需要30-40次升级。

2019.6.30 用了两天写了一个批量ocr的程序,这下扫描到ocr一条龙了!

百度人工智能分为高精度和通用低精度版,高精度我就不说了 识别的 非常完美,低精度识别效果也还是不错的,大于99%识别率。关键是赠送试验次使用,很多。

使用时可以高精度为主,每天限制500页,超出部分用低精度补全。一天高精度识别制作1-2本书我认为自用够用了。

下图为低精度识别效果:



16、关于ocr的双层pdf (使用acrobat 2020版 软件进行制作)

上一节介绍了百度ocr 本节介绍另外一种ocr形式 更方便。

百度ocr自动识别空格 段落 ,但仅此而已。无其他格式。所以 现在流行的是,用acrobat 2020版软件,在扫描版基础上利用ocr制作一层文本层 可以选中,复制,而且与底层图片的文本一一对应,而且可以关键字全文搜索。

经过实测,acrobat比abbyy识别率高不少,所有体检用这款,双层pdf制作接近完美了!

所以, 个人使用推荐双层pdf这种模式,一层扫描图,一层文本。如果自己排版ocr后的纯文本 那叫一个痛苦。。

功能1:用来搜索文本 文本与扫描件一一对应文字位置。

功能2:导出文本。

注意:个别文件双层pdf制作后有重影,文字层不透明,原因未知。。正在研究原因。。

17、关于奇偶页文件名改名

很多小伙伴反应之前的奇偶页改名方法太晦涩和复杂,我于是找了一个简单的方法:

工具:ReNamer Lite 附件6有下载地址

首先把我们扫描的文件装在两个文件夹,一个存放奇数页图片,一个存放偶数页图片。他们的初始顺序都是类似001 002 003 。。。。

我们要把奇数页里的001 002 003 004 。。。 改为 001 003 005 007

第一步:打开ReNamer Lite

第二步:拖动奇数页所有文件(已经排序好)到软件下身边的框内。(圈1处)

点击圈2处 添加改名规则。

第三步:选择“序列化”, 增量设为2, 勾选“替换当前名称”,勾选“填充0来补足长度” 设为3 或者4,5都行 根据你图片数量定。你有几百页就写3 几千页就选4

选好后单机“添加规则”

第四步:可以预览到改名后的文件名了,实现了奇数页文件名和页数的一一对应。

第六步:按照以上五步 把偶数页文件夹页全部改名,唯一不同的是起始值是2,其他设置都相同。

第七步:两个文件夹的图片都拷贝到一个文件夹内,即可完成改名流程。

renamer奇偶改名合并视频教程:

https://www.zhihu.com/video/1396039838890631168

18 关于批量ocr之万兴PDF

一以前一直用abbyy来ocr,貌似无法批量ocr。后来改成自己的ocr调用百度Api。达到了不错的效果。

最近又使用了一款Ocr软件。 他使用的是abbyy的引擎。感觉已经超越了abbyy本身的效果和易用性。

他就是万兴PDF

使用方法很简单,打开软件,打开批量功能,点ocr标签。

找到你需要ocr的pdf文件。 可以多次的拖入他这个框框里。点击开始就行啥也不需要设置。。可以挂机喝茶去了。

易用性非常的不错。

由于使用的是abbyy的引擎,所以必须要使用比较清晰的pdf格式这就要求源文件扫描的必须得非常扎实,文字细节必须得丰富。。那种模糊的识别率还是不是很高。

但是识别清晰扎实的pdf的时候,识别率还是非常可观的 99%以上也是能达到的。。而且使用的排版算法。 排版就是和原pdf一模一样。排版是近乎于完美。

所所以我这里强烈推荐。

当然我自创的那套ocr系统,我也是强烈推荐。

18.1 如何获得高质量OCR效果

完整处理流程图:

ocr技术很先进,但也是架不住遇到很多大坑。所以为了提高ocr质量做了一番总结:

1、前期拍摄非常扎实,对焦清晰,形变很小,光线均匀,光线精确控制。最好的是1-5MB每页,这样每个文字包含的相对丰富的细节方便后期处理。

如果嫌麻烦,可以使用零边距扫描仪老老实实一张一张的撸,出来就能是成品pdf,不需要太多的后期处理。。

2、cep处理到位,如:梯形失真,曲面失真的处理。扫描仪的话就不需要这么麻烦,直接处成品。

3、cep专门优化:参见我相关的附件的第五个,第六个cep参数,专门针对ocr做的优化:曲线上拉,gamma增粗,高斯锐化(针对ocr,这个参数我发现非常重要),图像变大,亮度增加,对比度增加。

做完这些,你会发现,原先的识别率只有90%,忽然增加到了99%甚至99.99%(实测好几本书)

我随机检测了一页:

如图

这个是没有cep处理,直接用pdfelement 的ocr的效果:

cep处理后再用万兴PDF ocr的效果(我的第五个cep参数预设):

效果有没有同90%上升到99%呢 甚至99.9% 诶呦不错!

2021年7月 新购一台富士通老式馈纸扫描仪6135zla,实测ocr效果已经达到了99.9%! 四百元的小玩意儿,但是双面ccd扫描,画质对于ocr够用了!

如果用平板扫描仪画质更好那更不用说了!

18.2 如何减小识别后的pdf体积

2021.07刚买了一台溃纸式扫描仪,试着扫了一本图片很多的书dfdf籍,用的1200dpi最高画质,但是文件1.7Gb 。。。500页

超过200mb的文件,pdfelement会经常识别错误,无奈我拆分成了二三十个小pdf来批量ocr,然后合并。竟意外发现了减小体积的方法。。

识别后得得每一个小pdf都有七八十兆,大家也许会想,几十个合并后不还是一个GB多大小吗, 可神奇的是,几十个pdf文件合并后,竟然只有100兆左右,压缩率帅气的达到了90%多!

也许是pdf合并时精简了同类参数把,不过这种无损压缩真是非常实用!

强烈推荐!

18.3 印影版扫描书籍和影印版+ocr处理后的画质对比:

很多朋友会问,那到底用那种方式呢,我做一个对比:

影印版:

这个是馈纸式扫描仪火力全开画质下的原图,很扎实,但是经不住放大。需要cep后续处理成纯黑白,但是纯黑白会丢失右下角图片的画质,变为不可用。

ocr处理后:

这样,文字会变清晰,同时保留排版,保留右下角的原画质的图片。放大后文字依然清晰。

放大后的影印版:

虽然扎实画质,但是变模糊了。即使cep二值化处理后,还是会留下很多锯齿,但是比这个清晰,且不如ocr后的文字效果。

放大后的OCR处理的文字:

随便放大哈。还是清晰。

结论:如果书籍没有艺术字体和数学公式,我这里强烈推荐把影印版的书籍做ocr处理。pdfelement的ocr功能,可以说是我这种强迫症书虫的终极武器了!

18.4 pdf和ocr辅助工具四件套 (本人原创)

在进行书籍优化和使用ocr的过程中,虽然有pdf补丁丁和cep的加持,能做到每天ocr100本书了,但是他们的批处理功能操作效率并未做到极致,我认为还可以挖掘操作上的效率。

所以,我做了一套辅助工具,进一步发掘了pdf制作和ocr制作的批处理效率,每天做500-10000本书籍不再是梦。

实现了万兴PDF的全流程批量化操作:

1 号工具:分类pdf。

优化pdf之前,我会一本一本的查看pdf,将pdf书籍分类成:彩色和灰度书籍,二值化纯黑白书籍,两大类。因为cep处理这两类书籍时候,优化参数完全不同,无法共存一个文件夹批处理。需要两个文件夹。

忙碌了三四小时,终于把当天需要优化处理的pdf分类完成,但是浪费了半天工作时间。

有了这个工具,几分钟就分类完成,效率提高了几十上百倍。酸爽!

新建一个目录,挑选需要优化或者ocr的书籍pdf到这一个目录。

一般攒够一百本-两百本开始处理(批处理嘛,书越多越好)

处理完毕,自动分类成jpg目录和png目录,jpg目录存放彩色书籍和灰度书籍,png目录存放二值化纯黑白书籍。textPDF目录存放文字版pdf。

2号工具 无损批量提取图片

根据cep批处理特性,我们需要解压在一个目录中一次性优化,(比如一百多本彩色书籍放入一个目录,一百多本纯黑白书籍放入一个目录)

这个工具会无损提取文件夹中所有pdf中的图片到d盘pdfpicsxxx目录,每次自动搞一个序号。

我的使用习惯是每次提取一百多本书,提取的书籍图片大概是5-10万页,cep一次性进行优化处理。。

操作开始:

首先在1号工具处理完毕的目录(比如jpeg目录 png目录)中,都拷入2号工具。

然后分别在每个文件夹中双击2号工具,会自动运行。每个文件夹可以同时进行互不影响。

等几十分钟--几个小时,每本书的图片就提取出来了。

3号工具 分卷合并图片

无损 提取图片后,每个目录中有大约5-20万张图,使用上文教程中的cep进行批量处理优化,这文件夹打开一个cep程序,同样支持多开不冲突。

操作:

拷贝3号工具 ”分卷合并图片 ”到cep处理完的图片目录,双击进行合并。20页合并为一个pdf。为什么要20页,是因为pdfelement进行ocr的时候,大文件会报错,小文件不会报错。

此程序支持多开。

双击开始合并

合并完成

这时候所有分卷pdf拖动到pdfelement进行ocr处理(不ocr的用户可以跳过此步)


4 号工具 书籍合并到一个文件夹

接上道工序,拷贝4号工具到这个优化合并pdf完成或ocr完成的目录,双击运行。

同一本书的分卷pdf会移动到同一个文件夹

这时候,用pdf补丁丁批量合并功能,合并成最终书籍。

操作:选中所有的书籍目录,比如一百本书的一百个目录,拖动到pdf补丁丁的合并pdf功能区域界面中。

勾选左下方:"顶层目录个并为一个pdf"

点击合并按钮

等一会儿,全部处理完成。

注意:

这四个工具目的是提高效率,所以一次性处理尽可能多的文件,越多效率越高。

我个人目前一次性处理200-400本书,优化和ocr都做。

多个文件夹可以分别拷贝同时运行,进一步提升效率。

二值化的pdf书籍随后附件2和附件4中会有专门的二次优化参数文件提供。



19、关于馈纸式扫描仪

2021.7 最近收拾家里的书籍,整整四箱子,只有十几本曾经做过电子化,纸版阅读还是不方便。于是我想把全部书籍电子化。算了一下时间,如果用v型书架方案,可以拍到腰酸背痛海枯石烂了。。。

于是买了一台馈纸式扫描仪,加速一下。

19.1 馈纸式扫描仪优点

速度快。双面同时扫描,一分钟20-40张,也就是40-80页的速度。

大批量。开机无需预热,可以手动添加扫描,形成多合一的同一批次整体任务。

Twain协议。电脑上随意控制打印机参数,比如锐化,白边,色彩模式等等。非常自由化和集成化。

版式位移公差特别小。由于是裁切好后放入送纸框内,而且扫描探头工作是在机内进行,所以所有的页面都是固定的位置,固定的参数扫描,无v型书架方案那种光源,位移等干扰,也没有平板扫描仪的页面位移干扰。每页的扫描的的位置公差可以忽略不计。很好的补充了v型书架方案的不足。

1200dpi 灰度扫描中 https://www.zhihu.com/video/1403696025433018368

自带软件。像中晶,富士通,柯达这些专业大厂,软件做的非常易用,多功能,自动化,同硬件高度匹配,软件的品控也超越很多第三方小公司作品。我用着很舒适!

体积小重量轻。比如我买的富士通6135zla这款,非常小巧,放在家里颜值不错,又不占地方。当然,还有更小的款式,空间利用更佳!重量也就2kg多把,小孩一样也能搬得动。

分辨率足够。虽然没有顶级平板扫描仪那种变态的画质,但是也达到了拍普通彩色书籍的水准。比如我的这款富士通6135zla,twain协议下设置到1200dpi精度,扫描效果我非常满意!图片达到了5000*10000左右的分辨率尺寸,对比600dpi的3000*4000的主官真实画质,提升了一个档次!600dpi的时候,会有色彩断层(pdf有断层,可能因为富士通软件合成pdf时画质压缩。 如果是600dpi的图片格式,没断层,画质很好),1200dpi后画质就细腻很多,没有任何噪点和色彩断层。(我的扫描仪是双面ccd 可能画质本身比较好,cis传感器的型号可能会画质稍微弱一些)

下图是我刚扫描的一本书 灰度模式,1200dpi,单张照片5000*10000分辨率大小。ocr以后,图片部分高清,文字部分完美文字,排版也ok!我已经深度中毒这种ocr阅读,因为阅读体验太好了!

可见,区区四百元的老式双ccd馈纸式扫描仪就达到了很高清的画质。

Ocr更方便。我实测发现,600dpi,1200dpi精度的扫描后可以直接ocr,正文的识别精度主观体验达到了99.5%和99.9% ,之前网上下载的很多高质量扫描书籍,很多都是适当的压缩,所以直接扫描识别率都很拉胯。。必须经过cep锐化,拉曲线,gamma处理以后才能达到99.5%以上的识别率,比较繁琐。。所以还是自己扫描的更香。。。

19.2 馈纸式扫描仪的缺点

需要裁切书籍。个别的有收藏价值的书籍不适合这种方式。

无法达到变态级画质。这时候需要祭出平板扫描仪。




厉害哈 你竟然看到了这里,下边是最后一章:

20、总结一下技术路线:

2021.7月 我最近又买了一台成者et18 玩玩ocr 还是不错的。 原装灯在正上方,我将 两侧增加了补光。

同月 同时购买了一台老式富士通6135zla双ccd馈纸式高速小型a4画幅扫描仪。这个出乎意料的非常好用!惊喜!

下一步计划购买一台零边距扫描仪或者短边距扫描仪玩玩。

技术路线总结(2021年7月版):

前期拍照:

1 自制v型书架拍照 (必备,常用

2 成者et18高拍仪 (备用,选配)

3 平板扫描仪 中晶v700plus 或 中晶i360 (高质量扫描必备)

4 零边距扫描仪 虹光2200 或3160(扫描速度快 1.8秒一页)

5 馈纸式扫描仪 柯达1150 1190(拆书党专用,0.x秒一页)

中期优化处理图片

1 cep4 (必备,常用

2 cep5.05 (专业作书 必备,常用

3 scantailor (备用,选配)

4 成者et18配套的软件(备用,选配)

5 中晶扫描仪配套软件(极限高质量扫描必备,常规选配)

后期ocr

1 ocr3000 (必备

2 pdf element (必备

3 cep4 5 (必备 ocr前做专项优化

其他:

1 某宝找书业务(扫描版) 3元一本(懒人必备

强行总结:

通过这些技术路线我们发现,各有特色,所以截止目前(2021.7),我认为所有设备各来一套,所有方法全部学会,才是最高效的扫描书籍的策略!速度,画质,无死角!


21、私人图书馆建设

2021年的想法,因为之前几年积累了不少电子书,所以便有了这个想法。

很简单,只需要一个软件:anytxt searcher

使用环境:我在windows测试通过 win7 win10

实现功能:本地硬盘中所有的电子书 包括txt epub pdf等 实现全文检索。

经过实测,txt,html epub格式可以天生支持这款软件的全文搜索。

Pdf文件略为复杂。Pdf分为文字版和扫描版。 文字版,大多数支持他的全文搜索。扫描版必须变成Ocr处理后的双层文件或者转成纯文字版。或者转成带排版的图文混排文字版pdf.这样就可以了。



附1:comicenhancerpro 设置参数:

第一个(加粗版,用于扫描的太浅的书籍):纯黑白+usm锐化+抖动算法 v1 加强版,很粗的效果

纠斜: 自动_横排, 边缘保留

缩放: 169%

自然饱和度: 18

高亮度: 105, 高亮值=190

对比度: 107

曲线调节: X1=121, Y1=36, X2=160, Y2=228

Gamma校正: 140

多尺度细节增强: 9

高斯模糊半径: 1.7

高斯锐化半径: 4, 阶数: 7

USM锐化: 遍数=3, 数量=181, 半径=88.6, 阀值=33

色彩设置: 色彩数=纯黑白, 抖动, 纯黑白(二值化)选项: 抖动算法=JJN


第二个(优化版,用于本身比较不错的需要优化的扫描书籍):纯黑白+usm锐化+抖动算法 v1 扫描的优化版

纠斜: 自动_横排, 边缘保留

切边: 上=4.4%, 下=11.0%, 左=7.4%, 右=10.3%, 手动选择范围内自动选择, 不计黑边, 忽略斑点直径: 08, 斑点补偿

DPI=600

页面大小: 内容框大小

缩放: 200%

自然饱和度: 18

高亮度: 104, 高亮值=190

对比度: 103

曲线调节: X1=109, Y1=79, X2=180, Y2=158

Gamma校正: 45

多尺度细节增强: 8

高斯模糊半径: 1.1

表面模糊: 遍数=3, 算法=Photoshop, 半径=14, 阀值=35

高斯锐化半径: 3, 阶数: 7

USM锐化: 遍数=1, 数量=56, 半径=7.3, 阀值=28

色彩设置: 色彩数=纯黑白, 纯黑白(二值化)选项: 阀值算法=Otsu, 去斑直径=8, 去除与边缘接触的黑色区域, 边缘去毛刺


第三个:基础版 用于日常处理 纯黑白+usm锐化+抖动算法 v1

缩放: 173%

对比度: 107

曲线调节: X1=121, Y1=36, X2=160, Y2=228

Gamma校正: 180

高斯模糊半径: 1.3

USM锐化: 遍数=3, 数量=116, 半径=9.7, 阀值=33

色彩设置: 色彩数=纯黑白, 抖动, 纯黑白(二值化)选项: 抖动算法=JJN



附2:ComicEnhancerPro_Para的四个配置参数。

2021.7.14更新:两个ocr使用的配置参数。文字锐化+图文混排优化 明显提高了万兴pdf中ocr的识别率。实测达到了大约90%上升到99%以上的提升幅度。

2021.7.21更新:ocr3号参数,用于想保留更多图像细节的图文混排书籍。

2021.7.29更新:ocr4号参数,用于比较淡的,画质比较差的扫描书籍。

ocr5号参数,2号基础上减少对比度,曲线向下拉比较黑。 3号比较淡。

我目前常用2号,5号,优化来自网络的扫描书籍。2号淡5号黑。

3号来优化质量非常好的扫描书籍,也用的比较多。

2021.8.21更新:wolf算法 纯黑白文字2号参数,这个利用了多尺度细节增强,可以处理非照片的 图片,是wolf算法参数的改进版,文字依然锐利,而且ocr以后识别率提升一个级别。强烈推荐。

[纯黑白+usm锐化+抖动算法 v1]

PARA_CONTRAST=107

PARA_GAMMA=180

PARA_CURVE=121

PARA_RESIZE=173

PARA_COLOR=7

PARA_SURFACE_BLUR_RADIUS=10

PARA_SURFACE_BLUR_THRESHOLD=42

PARA_DECREASE_BPP_DITHER=1

PARA_USM_TIMES=3

PARA_USM_AMOUNT=116

PARA_USM_THRESHOLD=33

PARA_USM_RADIUS=97

PARA_CURVE_1=36

PARA_CURVE_2=160

PARA_CURVE_3=228

PARA_ADJUST_BLUR_RADIUS=13

[纯黑白+usm锐化+抖动算法 v1 加强]

PARA_CONTRAST=107

PARA_HIGHLIGHT=105

PARA_GAMMA=196

PARA_CURVE=121

PARA_RESIZE=169

PARA_COLOR=7

PARA_SURFACE_BLUR_RADIUS=10

PARA_SURFACE_BLUR_THRESHOLD=42

PARA_DECREASE_BPP_DITHER=1

PARA_USM_TIMES=3

PARA_USM_AMOUNT=181

PARA_USM_THRESHOLD=33

PARA_USM_RADIUS=886

PARA_CURVE_1=36

PARA_CURVE_2=160

PARA_CURVE_3=228

PARA_DESKEW=1

PARA_DESKEW_ANGLE=28

PARA_ADJUST_BLUR_RADIUS=17

PARA_ADJUST_SHARPEN_PERCENT=4

PARA_ADJUST_MULTI_SCALE_R=9

PARA_ADJUST_VIBRANCE=18

[纯黑白+usm锐化+抖动算法 v1 修改扫描版]

PARA_CONTRAST=103

PARA_HIGHLIGHT=104

PARA_GAMMA=45

PARA_CURVE=109

PARA_RESIZE=200

PARA_COLOR=7

PARA_SURFACE_BLUR_TIMES=3

PARA_SURFACE_BLUR_RADIUS=13

PARA_SURFACE_BLUR_THRESHOLD=33

PARA_DECREASE_DESPECKLE_SIZE=8

PARA_DECREASE_DE_BLACK=1

PARA_DECREASE_DE_SMOOTH=1

PARA_USM_TIMES=1

PARA_USM_AMOUNT=56

PARA_USM_THRESHOLD=28

PARA_USM_RADIUS=73

PARA_CURVE_1=79

PARA_CURVE_2=180

PARA_CURVE_3=158

PARA_CROPPING_P_LEFT=74

PARA_CROPPING_P_TOP=44

PARA_CROPPING_P_RIGHT=103

PARA_CROPPING_P_BOTTOM=110

PARA_PAGE_SIZE=1

PARA_DESKEW=1

PARA_DESKEW_ANGLE=12

PARA_FIND_CNT_BOX=1

PARA_DPI=600

PARA_ADJUST_BLUR_RADIUS=11

PARA_ADJUST_SHARPEN_PERCENT=3

PARA_ADJUST_MULTI_SCALE_R=8

PARA_ADJUST_VIBRANCE=18

[wolf算法 纯文字版使用]

PARA_RESIZE=200

PARA_COLOR=7

PARA_DECREASE_THRESHOLD_METHOD=2

PARA_DECREASE_WINDOW_SIZE=19

PARA_DECREASE_DE_SMOOTH=1

PARA_ROATE=1

PARA_CROPPING_P_LEFT=281

PARA_CROPPING_P_TOP=59

PARA_CROPPING_P_BOTTOM=147

PARA_DESKEW=1

PARA_DESKEW_ANGLE=171

PARA_FIND_CNT_BOX=1

PARA_DPI=1200

PARA_ADJUST_BLUR_RADIUS=4

[ocr用 图文均衡 图文混排可用]

PARA_BRIGHTNESS=105

PARA_CONTRAST=135

PARA_GAMMA=130

PARA_RESIZE=114

PARA_QUALITY=86

PARA_USM_TIMES=3

PARA_USM_AMOUNT=69

PARA_USM_RADIUS=21

PARA_CURVE_2=154

PARA_CURVE_3=228

PARA_ADJUST_SHARPEN_PERCENT=3

PARA_ADJUST_SHARPEN_SIZE=2

[ocr用 2号 图文混排优化图片效果]

PARA_BRIGHTNESS=105

PARA_CONTRAST=132

PARA_GAMMA=127

PARA_RESIZE=121

PARA_QUALITY=86

PARA_USM_AMOUNT=69

PARA_USM_RADIUS=21

PARA_CURVE_2=133

PARA_CURVE_3=209

PARA_DPI=600

PARA_ADJUST_SHARPEN_PERCENT=3

PARA_ADJUST_SHARPEN_SIZE=3

[ocr 3号 更弱的锐化 图文混排用]

PARA_BRIGHTNESS=105

PARA_CONTRAST=119

PARA_GAMMA=111

PARA_RESIZE=121

PARA_QUALITY=86

PARA_USM_AMOUNT=69

PARA_USM_RADIUS=21

PARA_CURVE_2=171

PARA_CURVE_3=188

PARA_DESKEW=1

PARA_DESKEW_ANGLE=-15

PARA_DESKEW_CLEAN_BLOCK=1

PARA_DESKEW_EDGE=1

PARA_DPI=600

PARA_ADJUST_SHARPEN_PERCENT=3

PARA_ADJUST_SHARPEN_SIZE=3

[ocr4号 文字加黑优化 兼顾图像]

PARA_BRIGHTNESS=105

PARA_CONTRAST=117

PARA_GAMMA=152

PARA_RESIZE=121

PARA_QUALITY=86

PARA_USM_AMOUNT=69

PARA_USM_RADIUS=21

PARA_CURVE_2=179

PARA_CURVE_3=137

PARA_DESKEW=1

PARA_DESKEW_CLEAN_BLOCK=1

PARA_DESKEW_EDGE=1

PARA_DPI=600

PARA_ADJUST_SHARPEN_PERCENT=3

PARA_ADJUST_SHARPEN_SIZE=3

PARA_ADJUST_MULTI_SCALE_R=2

[ocr 5号 2号加黑减对比版]

PARA_BRIGHTNESS=103

PARA_CONTRAST=108

PARA_GAMMA=127

PARA_RESIZE=121

PARA_QUALITY=86

PARA_USM_AMOUNT=69

PARA_USM_RADIUS=21

PARA_CURVE_2=179

PARA_CURVE_3=154

PARA_DESKEW=1

PARA_DESKEW_CLEAN_BLOCK=1

PARA_DESKEW_EDGE=1

[wolf 纯文字版 2.0 多尺度细节增强高斯锐化]

PARA_CONTRAST=137

PARA_RESIZE=200

PARA_COLOR=7

PARA_DECREASE_THRESHOLD_METHOD=2

PARA_DECREASE_WINDOW_SIZE=19

PARA_DECREASE_DE_SMOOTH=1

PARA_CURVE_2=114

PARA_CURVE_3=198

PARA_CROPPING_P_RIGHT=9

PARA_DESKEW=1

PARA_DESKEW_ANGLE=-62

PARA_DESKEW_EDGE=1

PARA_DPI=600

PARA_ADJUST_SHARPEN_PERCENT=7



附3:真实制作案例:使用了黑白模式+抖动算法+usm锐化

链接:pan.baidu.com/s/1SE1DQ5提取码:Wk85

265MB的彩色原版pdf,处理后编程了11.7MB。。。。

画质强迫症患者, 极客 可以看一下这个版本40MB 画质真的快到极限了 169%的放大 ,600dpi,超多gamma.各种调整和微调:

链接:pan.baidu.com/s/1HoIH4N 提取码:3732


附4:所有用到的工具的下载:

2019.9.7更新

链接: pan.baidu.com/s/1tZvdGy

提取码: 2ucv

附件5

1本人已经开发出整本书pdf的批量ocr识别


2021.6月更新1.53版

2021.4发布1.4公测版

2021.3 发布1.3公测版


附件6:ReNamer Lite 下载地址:

pan.baidu.com/s/1_f49K8

提取码:i3mj

附件7:comic enhancerpro 5.05 最新版 和教程pdf下载地址:

pan.baidu.com/s/1TTDL_L

提取码: tjdf

附件8:pdf和ocr辅助工具四件套下载地址:

链接: pan.baidu.com/s/1fXtgLN

提取码: 1byd




  

相关话题

  有没有一种感觉,那就是看过的书都忘记了? 
  有没有什么好用的pdf编辑软件? 
  如何看待「买书如山倒,看书如抽丝」的行为? 
  能推荐一些含金量高的写作书吗? 
  WPS中,为啥word转PDF后格式会乱呢? 
  pdf怎么把几页合并到一页? 
  有没有好的相声和曲艺书籍推荐? 
  辩论与演讲的书籍有哪些推荐? 
  为什么会有二手游戏是盗版的言论,而没有二手书、cd、电影是盗版的言论? 
  如果拥有一间书房,你会给她取个什么名字? 

前一个讨论
为什么垃圾分类投放在中国进行得不如日本等国家好?
下一个讨论
如何看待哔哩哔哩将联合艺画开天出品《三体》动画?





© 2024-06-28 - tinynew.org. All Rights Reserved.
© 2024-06-28 - tinynew.org. 保留所有权利