淘客熙熙

主题:【请教】如何改变PDF格式文件的大小 -- 宝贝小猪

共:💬23 🌺38 新:
全看分页树展 · 主题 跟帖
家园 如果只是文本

1. 扫描或者扫描后期处理的时候注意输出分辨率,对于文字,一般150~200dpi看起来就很舒服了,100dpi也凑合。

2. 压缩色彩空间。如果文本只有黑白两色,存图片的时候就用256级灰度。这样在不压缩的文件里,每象素仅仅占用8个bit,否则的话如果用RGB模式存储就会是24bit或更多。

如果不需要看起来很舒服,还可以在photoshop里进一步压缩色彩空间,改成4bit/pixel,然后存成tiff。tiff要选择lzw压缩。

如果特吝啬,还可以试试2bit/pixel,这样出来的东西可以读,不过一般的来说会巨难看。

如果文本带有有限的几种彩色,那么扫描时还是扫3通道,但在扫描完成后,在photoshop里把模式从RGB改成indexed color,这样每个象素只占8bit,然后存成gif文件,这种格式是会自动进行lzw压缩的,对于文字为主的图片来说,文件应该会相当小。记住勾掉仿色,不然出来的东西到处是麻点。

3. 为了得到尽量小的文件,扫描参数要仔细调,扫完以后也要仔细调黑白点,使得背景是单一的纯色,而不要把纸的纹路什么的还留着。这样在压缩的时候不会为背景信息浪费空间。对于lzw压缩的tiff和gif格式,背景越干净,压缩效果越好,一张A4的纯文本,压出来只有几十K绝不稀奇。

4. 选择合适的图片压缩算法。在压缩扫描的文字图片的时候,一般来说用lzw算法的效率会比用jpeg好,除了lzw是无损压缩算法(因此线条周围不会像压缩过度的jpeg图片那样出现明显波纹)之外,jpeg面对大部分是均匀空白的文字图片的确也不如lzw压的小。当然前提是你背景处理的要得当,如果搞得背景全是纸的花纹,会严重影响lzw的压缩效率。

以上是扫描成图片时如何节省空间同时保证最高质量。

5. 除了在图片格式上做手脚,也可以试试acrobat的OCR功能,这样出来的pdf的文字部分是字符而不是图片。acrobat应该可以对英文文本OCR。不过我没有试过。

关键词(Tags): #pdf文件(当生)#pdf(当生)元宝推荐:爱莲,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河