当前位置:首页 » 编程软件 » pdf提取脚本

pdf提取脚本

发布时间: 2023-06-02 00:24:20

1. 如何利用python抓取PDF中的某些内容

可以转换成TXT再抓取


fromcStringIOimportStringIO
frompdfminer.pdfinterp
importPDFResourceManager,PDFPageInterpreter
frompdfminer.converterimportTextConverter
frompdfminer..pdfpage
importPDFPage
defconvert_pdf_2_text(path):

rsrcmgr=PDFResourceManager()
retstr=StringIO()

device=TextConverter(rsrcmgr,retstr,codec='utf-8',laparams=LAParams())
interpreter=PDFPageInterpreter(rsrcmgr,device)

withopen(path,'rb')asfp:
forpageinPDFPage.get_pages(fp,set()):
interpreter.process_page(page)
text=retstr.getvalue()

device.close()
retstr.close()

returntext
热点内容
我的世界pe服务器创造 发布:2025-05-15 10:51:17 浏览:607
移动端打吃鸡要什么配置 发布:2025-05-15 10:48:16 浏览:756
我的世界哪五个服务器被炸了 发布:2025-05-15 10:36:16 浏览:994
ehcache存储对象 发布:2025-05-15 10:35:31 浏览:528
搭建虚拟电脑的服务器 发布:2025-05-15 10:29:31 浏览:270
湖人双核配置哪个最好 发布:2025-05-15 10:09:48 浏览:980
手机热点密码怎么查看 发布:2025-05-15 09:54:47 浏览:109
生意发力云存储 发布:2025-05-15 09:54:45 浏览:617
编写一个shell脚本添加用户 发布:2025-05-15 09:54:43 浏览:506
数据库查看表命令 发布:2025-05-15 09:52:27 浏览:915