当前位置:首页 » 编程软件 » pdf提取脚本

pdf提取脚本

发布时间: 2023-06-02 00:24:20

1. 如何利用python抓取PDF中的某些内容

可以转换成TXT再抓取


fromcStringIOimportStringIO
frompdfminer.pdfinterp
importPDFResourceManager,PDFPageInterpreter
frompdfminer.converterimportTextConverter
frompdfminer..pdfpage
importPDFPage
defconvert_pdf_2_text(path):

rsrcmgr=PDFResourceManager()
retstr=StringIO()

device=TextConverter(rsrcmgr,retstr,codec='utf-8',laparams=LAParams())
interpreter=PDFPageInterpreter(rsrcmgr,device)

withopen(path,'rb')asfp:
forpageinPDFPage.get_pages(fp,set()):
interpreter.process_page(page)
text=retstr.getvalue()

device.close()
retstr.close()

returntext
热点内容
128服务器是什么意思 发布:2025-09-17 19:49:54 浏览:603
yum安装phpfpm 发布:2025-09-17 19:48:49 浏览:566
斗罗大陆我的世界服务器游戏 发布:2025-09-17 19:46:14 浏览:15
国产压缩饼干 发布:2025-09-17 19:25:55 浏览:150
算法p8 发布:2025-09-17 19:22:37 浏览:702
车的哪些配置是必须有的 发布:2025-09-17 19:00:32 浏览:1000
php判断设备 发布:2025-09-17 18:27:53 浏览:403
医院存储方案 发布:2025-09-17 18:26:38 浏览:352
用户注册java 发布:2025-09-17 18:23:40 浏览:399
centosftp不能上传 发布:2025-09-17 18:19:15 浏览:736