不知道这软件干吗的就不用往下看了。

本文档仅针对读秀扫描图书,不涉及自扫图书。

读秀图书体积庞大,常见原因主要有三:页面大小设置不当,页面颜色灰度,以及一些劣化手段。优化瘦身的主要目的也正是为了改善这些问题。

日常电子书处理,面对的文件主要是“一大堆字”仅有简单文字排版的普通书籍。对于这种书籍而言,需要保留的信息是原页照排的文字,而至于版面装饰、印刷细节都可以不必保留;大部分此类图书的文中插图也没必要在意,单页插图则可以直接保留整页,无需处理。因此,绝大部分此类普通书籍,都可以直接把页面设为黑白,没必要保留灰度。页面上各种花纹装饰也是能删就删。

这个设置要求你拿到DPI超过300的灰度扫描文件,习惯称为“高清”文件。“大图”或“快速”的文件处理效果不佳。

先上一个设置清单:

纠斜: 自动_横排, 边缘填白
切边: 上=0.6%, 下=0.5%, 左=0.6%, 右=0.5%
DPI=600
页面大小: 指定宽、高, 单位=厘米, 宽度=16.90, 高度=23.90
去除背景阴影: 5
曲线调节: X1=297, Y1=-42, X2=152, Y2=296
Gamma校正: 140
多尺度细节增强: 39
高斯模糊半径: 0.5
缩放: 95%
高斯锐化半径: 1, 阶数: 25
USM锐化: 遍数=3, 数量=143, 半径=172.0, 阀值=122
色彩设置: 色彩数=纯黑白, 纯黑白(二值化)选项: 阀值算法=Otsu, 去斑直径=6, 去除与边缘接触的黑色区域, 边缘去毛刺

然后简单解释几句。

(1) 切边设置

  • 纠斜选项按需设置,一般是横排,如果是竖排的话改一下。
  • 一般不需要内容框,“手动选择范围内自动选择”复选框取消掉。
  • 切边,我自己觉得薄切一层就够了(目的是切掉页面不正所带来的黑色边缘),因此四个方向都只切 0.5% 左右。
  • 页面大小设置是重点。我选择的是指定宽高,具体数值基本上是按照 B5 纸的大小填写的,因为这是绝大多数“全是字的”书籍的开本。
  • DPI一定要改成 600 。提升DPI是优化的关键。

(2) 曲线

把左下的方块拉到右下角,右上的方块先拉到最高,然后稍微往左一点。修改的时候,只左右微调顶上的方块,下面的基本不动。

这个设置的目的是让密集黑的部分尽量黑,然后微调找到那个平衡点,让边缘细节损失最小但噪点又没有显示出来。

(3) USM 锐化

我照着网上的一个攻略写的。数量143,半径172,阈值122。

(4) 其他

“调节”按钮对话框里——

  • 高斯模糊 0.5 (这个设置可以让黑斑变大,如果文件笔画锯齿严重的话可以适当调大)
  • 高斯锐化 1,阶数25
  • 细节增强 最大
  • 去除阴影 5 (这个设置是新版本里加的,效果贼拉好)

“色彩”按钮对话框里——

  • 颜色填全黑白,“抖动”复选框取消掉(对全是字的书籍来讲抖动没啥用,你又不关心细节)
  • 去斑直径我填的是6。实测这个数字大于8就有可能会把句号或者逗号消掉。
  • 下面两个复选框都打勾。其中去除接触区域一项能消掉绝大多数黑边,但也有可能导致边缘的字被吃掉,一般如果不是文字死顶着页边的话就没事,如果真遇到死顶着的情况,就只能把这个勾去掉。
  • “去除符合下列条件的黑色区域”只在一种情况下需要填写——段中夹杂太多插图或是页面装饰里有大黑块的情况。大黑块不仅难看,还会导致文件占用空间上升。但这个选项误伤很厉害,尤其是扉页的大号汉字经常因此导致缺笔。如果需要填写的话,大概在200-300左右,两个都得填。

最后的保存格式一般选TIFF。

处理效果

使用 PDF24 (强烈推荐)或 Adobe Acrobat 导出原书所有文件,用上述参数处理——CEP有个批量处理功能,非常好用——得到的TIFF图片大概每个文件 100-150 KB左右,平均下来,大概每本书的占用空间会缩小到(页数/10)个MB。显示优美,在iPad上放大也不会有明显锯齿,而且因为是纯黑白,做笔记或高亮都方便,OCR识别效果也好,适合长期保存。

这个软件只能用来制作自己存档备用的文档,不能用来还原原书的样貌——你试一试就会发现字体细节变化很多,一眼就能看出来不是原书。毕竟,主要目的是用最小的文件尺寸最大程度保留原书版式下的文字。