python读取pdf为文本

本文主要是介绍python读取pdf为文本，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

from urllib.request import urlopen

from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from io import StringIO

from io import open

def readPDF(pdfFile):
rsrcmgr = PDFResourceManager()#资源管理器
retstr = StringIO()#分配内存
laparams = LAParams()#段落
device = TextConverter(rsrcmgr, retstr, laparams=laparams)#转换为文本

process_pdf(rsrcmgr, device, pdfFile)#抓取文本
#关闭设备
device.close()

content = retstr.getvalue()#抓取字符
retstr.close()#关闭
return content

pdfFile = urlopen(“file:///C:/Users/Administrator/Desktop/爬虫简历.pdf”)
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()

这篇关于python读取pdf为文本的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Python教程

python读取pdf为文本

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯