链接:https://www.jianshu.com/p/e3d384e51db9
在Python中使用PDF我相信,你们一定对pdf非常熟悉。事实上,它也是非常重要并且应用广泛的一种数字媒体。PDF全称是Portable Document Format,即可移植的文档格式。它使用.pdf作为扩展名。用于可靠的呈现和交换文档,与软件,硬件和操作系统无关。
pdf由Adobe公司开发,现在由国际标准化组织ISO进行维护。PDF合成包含链接和按钮,表单字段,音频,视频和业务逻辑
1 在这篇文章中,我们将学习如何做一些pdf的操作:
从PDF中提取文字
旋转pdf页
合并pdf
分割pdf
向pdf页中添加水印
使用简单的python脚本 1、安装我们将使用第三方的模块 PyPDF2
1 PyPDF2是作为PDF工具包构建的python库,它能够:
提取文档信息(标题,作者,…) 按页拆分文档 逐页合并文档 裁剪页面 合并多个页面到一个页 对pdf文档进行加密解密 等等 安装PyPDF2,在命令行下执行命令:
注意,这个模块的名字对大小写是敏感的,所以,确保y是小写的,其他字母都是大写的
2、使用模块 - 从pdf中提取文字1 2 3 4 5 6 7 8 9 10 11 12 13 import PyPDF2 pdfFile = open('example.pdf' ,'rb' ) pdfReader = PyPDF2.PdfFileReader(pdfFile)print (pdfReader.numPages) page = pdfReader.getPage(0 )print (page.extractText()) pdfFile.close ()
在我的机子上输出如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 241 Copyright © 201 7 by OriginLab Corporation All rights reserved. No part of the contents of this book may be reproduced or transmitted in any form or by any means without the written permission of OriginLab Corporation. OriginLab, Origin, and LabTalk are either registered trademarks or trademarks of OriginLab Corporation. Other product and company names mentioned herein may be the trademarks of their respective owners.
我们来逐步分析一下上面的代码1 pdfFile = open ('example.pdf' ,'rb' )
我们以二进制的方式打开example.pdf,并且保存为pdfFile
1 pdfReader = PyPDF2.PdfFileReader(pdfFile)
我们创建了一个PyPDF2模块中PdfFileReader类的对象,并将pdfFile对象传进去,获取pdfReader对象
1 print (pdfReader.numPages)
numPages 属性保存了pdf的页数,在我的例子中,numPages = 241
1 page = pdfReader.getPage(0)
现在,我们创建了一个page对象。pdfReader的getPage方法可以接受页码参数,并返回页面对象。
1 print (page.extractText())
page的extractText()方法,可以提取出页面中的文字
最后,关闭打开的example.pdf
注意:虽然PDF文件非常适合以一种便于打印和阅读的方式显示文本,但是对于软件来说,将其解析为纯文本并不容易。因此,PyPDF2在从PDF中提取文本时可能会出错,甚至可能根本无法打开某些PDF。不幸的是,你对此无能为力。PyPDF2可能无法处理某些特定的PDF文件。
- 旋转pdf页1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 import PyPDF2def PDFrotate (origFileName,newFileName,rotation ): pdfFile = open (origFileName,'rb' ) pdfReader = PyPDF2.PdfFileReader(pdfFile) pdfWriter = PyPDF2.PdfFileWriter() for page in range (pdfReader.numPages): pageObj = pdfReader.getPage(page) pageObj.rotateClockwise(rotation) pdfWriter.addPage(pageObj) newFile = open (newFileName,'wb' ) pdfWrite.write(newFile) pdfFile.close() newFile.close()def main (): origFileName = 'example.pdf' newFileName = 'rotated_example.pdf' rotation = 270 PDFrotate(origFileName,newFileName,rotation)if __name__ == "__main__" : main()
我们看一下关键的代码:
1 pdfWriter = PyPDF2.PdfFileWriter()
因为我们是将旋转后的页面写入新的pdf,所以首先创建一个PdfFileWriter对象:pdfWriter。
1 2 3 4 5 for page in range (pdfReader.numPages ): pageObj = pdfReader.getPage(page) pageObj.rotateClockwise(rotation) pdfWriter.addPage(pageObj)
通过pdfReader.numPages,获取pdf的页数,然后进行循环。 循环体中,先创建每一页的对象,然后调用页面对象的rotateClockwise方法,传入的参数是顺时针旋转的度数。最后,旋转后的页面对象作为参数传给pdfWriter的addPage方法。
1 2 3 4 5 newFile = open(newFileName,'wb' ) pdfWrite.write(newFile) pdfFile.close () newFile.close ()
打开新的文件,以写的方式,将我们新生成的pdf写入。然后关闭两个文件
- 合并pdf文件1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 import PyPDF2def PDFmerge (pdfs,output ): pdfMerger = PyPDF2.PdfFileMerger() for pdf in pdfs: with open (pdf,'rb' ) as f: pdfMerger.append(f) with open (output,'wb' ) as f: pdfMerger.write(f)def main (): pdfs = ['example.pdf' ,'testexample.pdf' ] output = 'combined_example.pdf' PDFmerge(pdfs,output)if __name__ == '__main__' : main()
- 给pdf添加水印1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 import PyPDF2def add_watermark (wmFile,pageObj ): wmFileObj = open (wmFile,'rb' ) pdfReader = PyPDF2.PdfFileRdader(wmFileObj) pageObj.mergePage(pdfReader.getPage(0 )) wmFileObj.close() return pageObjdef main (): watermark = 'watermark.pdf' origFileName = 'example.pdf' newFileName = 'watermark_example.pdf' pdfFileObj = open (origFileName,'rb' ) pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pdfWriter = PyPDF2.PdfFileWriter() for page in range (pdfReader.numPages): wmPageObj = add_watermark(mywatermark,pdfReader.getPage(page)) pdfWriter.addpage(wPageObj) newFile = open (newFileName,'wb' ) pdfWriter.write(newFile) pdfFileObj.close() newFile.close()if __name__ == '__main__' : main()
过程大致和旋转的例子一样
1 wmPageObj = add_watermark(mywatermark,pdfReader.getPage(page))
我们通过自定义的add_watermark函数将水印与原始pdf页进行合并。 让我们来观察一下add_watermark函数
1 2 3 4 5 wmFileObj = open (wmFile, 'rb' ) pdfReader = PyPDF2.PdfFileReader(wmFileObj) pageObj.mergePage(pdfReader.getPage(0 )) wmFileObj.close()return pageObj
首先,我们创建了一个pdf reader对象。对于传递的页面对象,我们使用mergePage()函数传递水印,这将在传递的页面对象上覆盖水印。