PDF、中文和电子书
cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。
因为要做PDF,先是找免费的最好开源的PDF创建方案,最简单的是OpenOffice.org或者WPS,这两个免费或开源的软件(WPS有个人免费版)都可以直接输出成PDF,并且可以直接打开MS Office文件。但它们打开MS文件的水平有高有低,毕竟是第三方,很难完全支持,终究不是长久之计,除非以后都用它们来写文件。
另一个比较好的生成PDF的方法是用PDFcreater,这是个开源软件,装完后就是个打印机,可以直接从Windows程序打印到PDF文件,如果让前面的Wait,还可以继续打印第二个,然后还可以把这些文件都合并成一个PDF文件,应该说挺好用。
但后来为了尽量减少PDF文件的大小,在PDFcreater的设置里面取消了嵌入字体,然后它的效果就不好了,甚至是不合乎PDF的规范了,因为它生成的不嵌入字体的PDF文件在Adobe Reader 9里面都不能正常显示,没有嵌入字体的字符都显示成了小横线。
有一段时间还以为PDF这个问题已经彻底解决了,现在看来远不是这样。翻了些说明,原来问题是这样的:要想显示效果接近印刷排版,就必须在PDF文件中嵌入相应的字体字形,而不能光是保存文件本身的文字信息;如果不把字体信息嵌入,PDF的阅读器就必须去找字体来用,那样就不一定能找到完全一致的字体;如果找不到PDF文件中指定的字体,就要用其他字体来代替。
在Adobe reader 9之前,Adobe专门有一个单独下载的中文语言包,装上它可以更好地显示中文。但在第9版里,似乎中文版已经自带了这个包,找不到单独的下载了。\Adobe\Reader 9.0\Resource\CIDFont下面可以看到两款Adobe的中文字体,AdobeheitiStd和AdobeSongStd,Opentype格式的,还都挺大。在Reader里看PDF的属性,就能看到哪些字体是嵌入的,还有哪些字体是用这两款字体代替的。一个黑体,一个宋体,应该说已经覆盖中文文档的大部分情况了。
应该说,PDF这种形式也只是电子书的一种,它力图让显示效果接近真书,它本质上也是一种排版格式,涉及的印刷的概念非常多,本身也不能再编辑,虽然现在Adobe acrobat里面力图增加各种修改功能,但是非常难用,因为它本来不是为这个目的设计的。它在显示上也不能自动地适应屏幕大小,所以人称在PDA上手机上看PDF是一种行为艺术。
更适应数字时代阅读的应该还是文本派,只记录文本信息,不管字体的事,也不追求和印刷版一致的效果,但是可搜索,可编辑,可以重新调整排版样式,换显示字体更是轻而易举。就像最近因为Sony+Google共同支持而广为人知的ePub格式一样,它里面真正的内容就存在xml文件里,里面就是书的文本内容,然后加上各种其他数据再ZIP打包出来。7zip就可以认得它并解开,Winrar似乎就不行。
反正读书就是看它其中的内容和信息,没有必要跟印出来的一样,有关印刷行业的概念也完全可以去掉大部分,文字搞成多少dpi,图形搞到多少dpi,在屏幕上意义其实不大,正常屏幕就是96dpi;字体更没有必要,读者各有所好,给他们选择的自由显然更好。要追求印刷效果,最好的格式自然应该是djvu,这个格式设计出来就是主要为了保存图书扫描文档的。
Adobe在字体方面肯定是做了不少工作,但不知道有什么专门知识,用PDFCreator制作的不嵌入字体的PDF就不正常,这还真是件奇怪的事。于是WPS输出的PDF自动地就嵌入了字体,可能也不能设置不嵌入。Acrobat生成的PDF不嵌入字体也没有问题,看来这里还有专门的设计。Adobe在帮助上说: (Acrobat) 对于亚洲语言文本,Acrobat 使用来自“Asian language kit”安装的字体或者来自用户系统的相似字体。无法替换来自某些语言或不知道编码的字体,在这些情况下,以项目符号显示文件中的文本。
就算是能嵌入字体,字体又有版权问题,买到的字体可以在自己机器上用,可以打印文件用,但是如果想发布出去,只怕又有打不完的官司,比如最近就有方正起诉暴雪那个游戏里带了它的字体,以及起诉宝洁在广告包装上用它的字体。总之是麻烦多多。
总之,在电子书这个格式上,感觉PDF没有什么太大的优势了,可惜现在它几乎是标准,还是希望epub这样的早点上位吧。
另一个比较好的生成PDF的方法是用PDFcreater,这是个开源软件,装完后就是个打印机,可以直接从Windows程序打印到PDF文件,如果让前面的Wait,还可以继续打印第二个,然后还可以把这些文件都合并成一个PDF文件,应该说挺好用。
但后来为了尽量减少PDF文件的大小,在PDFcreater的设置里面取消了嵌入字体,然后它的效果就不好了,甚至是不合乎PDF的规范了,因为它生成的不嵌入字体的PDF文件在Adobe Reader 9里面都不能正常显示,没有嵌入字体的字符都显示成了小横线。
有一段时间还以为PDF这个问题已经彻底解决了,现在看来远不是这样。翻了些说明,原来问题是这样的:要想显示效果接近印刷排版,就必须在PDF文件中嵌入相应的字体字形,而不能光是保存文件本身的文字信息;如果不把字体信息嵌入,PDF的阅读器就必须去找字体来用,那样就不一定能找到完全一致的字体;如果找不到PDF文件中指定的字体,就要用其他字体来代替。
在Adobe reader 9之前,Adobe专门有一个单独下载的中文语言包,装上它可以更好地显示中文。但在第9版里,似乎中文版已经自带了这个包,找不到单独的下载了。\Adobe\Reader 9.0\Resource\CIDFont下面可以看到两款Adobe的中文字体,AdobeheitiStd和AdobeSongStd,Opentype格式的,还都挺大。在Reader里看PDF的属性,就能看到哪些字体是嵌入的,还有哪些字体是用这两款字体代替的。一个黑体,一个宋体,应该说已经覆盖中文文档的大部分情况了。
应该说,PDF这种形式也只是电子书的一种,它力图让显示效果接近真书,它本质上也是一种排版格式,涉及的印刷的概念非常多,本身也不能再编辑,虽然现在Adobe acrobat里面力图增加各种修改功能,但是非常难用,因为它本来不是为这个目的设计的。它在显示上也不能自动地适应屏幕大小,所以人称在PDA上手机上看PDF是一种行为艺术。
更适应数字时代阅读的应该还是文本派,只记录文本信息,不管字体的事,也不追求和印刷版一致的效果,但是可搜索,可编辑,可以重新调整排版样式,换显示字体更是轻而易举。就像最近因为Sony+Google共同支持而广为人知的ePub格式一样,它里面真正的内容就存在xml文件里,里面就是书的文本内容,然后加上各种其他数据再ZIP打包出来。7zip就可以认得它并解开,Winrar似乎就不行。
反正读书就是看它其中的内容和信息,没有必要跟印出来的一样,有关印刷行业的概念也完全可以去掉大部分,文字搞成多少dpi,图形搞到多少dpi,在屏幕上意义其实不大,正常屏幕就是96dpi;字体更没有必要,读者各有所好,给他们选择的自由显然更好。要追求印刷效果,最好的格式自然应该是djvu,这个格式设计出来就是主要为了保存图书扫描文档的。
Adobe在字体方面肯定是做了不少工作,但不知道有什么专门知识,用PDFCreator制作的不嵌入字体的PDF就不正常,这还真是件奇怪的事。于是WPS输出的PDF自动地就嵌入了字体,可能也不能设置不嵌入。Acrobat生成的PDF不嵌入字体也没有问题,看来这里还有专门的设计。Adobe在帮助上说: (Acrobat) 对于亚洲语言文本,Acrobat 使用来自“Asian language kit”安装的字体或者来自用户系统的相似字体。无法替换来自某些语言或不知道编码的字体,在这些情况下,以项目符号显示文件中的文本。
就算是能嵌入字体,字体又有版权问题,买到的字体可以在自己机器上用,可以打印文件用,但是如果想发布出去,只怕又有打不完的官司,比如最近就有方正起诉暴雪那个游戏里带了它的字体,以及起诉宝洁在广告包装上用它的字体。总之是麻烦多多。
总之,在电子书这个格式上,感觉PDF没有什么太大的优势了,可惜现在它几乎是标准,还是希望epub这样的早点上位吧。
评论
Moses:
发条狐狸:
支持文本派.文本派不应该仅仅是最基础的TXT文件.一般原始不用标记章节的都可以用TXT,比如小说什么的.更复杂的可能就需要XML了.比如要有数学公式,化学方程式的书.不过我一直想要原始样本和笔记并存的格式,而且要支持多种文件样式,不过一直没找到.
PDF用的越来越少了.因为实体化印刷越来越少了.而且在这方面,有很多种格式可以达到差不多的效果.
PDF用的越来越少了.因为实体化印刷越来越少了.而且在这方面,有很多种格式可以达到差不多的效果.
善用佳软:
pdf,确实令人爱恨交加。
很赞同内容与形式分离的主张。甚至,我认为blog也应该只输出语义化的html,css由第三方或用户提供。
很赞同内容与形式分离的主张。甚至,我认为blog也应该只输出语义化的html,css由第三方或用户提供。
于 2009-09-11 16:42:41 发表,来自:http://xbeta.info
leafduo:
用允许嵌入的字体吧,手机上的 Adobe Reader LE 好像能重新排版
于 2009-09-11 19:10:19 发表,来自:http://leafduo.com/blog/
我来评论
为保护您的隐私,请不要在评论框里填写自己的真实E-mail地址。
广告见之即删。带有任何赢利机构链接的评论都会删除。
广告见之即删。带有任何赢利机构链接的评论都会删除。

Word 之类的所谓 "所见即所得" 的字处理软件在这方面其实差的很远, 不仅字体和屏幕不一致, 颜色更是完全不对. 印刷厂要出版书的话, 不可能用 doc 文件直接印刷, 排版都用 Adobe 那套标准来重做, 所以比较正规的电子书也都是 PDF 的了.