當前位置:首頁 » 編程軟體 » pdf提取腳本

pdf提取腳本

發布時間: 2023-06-02 00:24:20

1. 如何利用python抓取PDF中的某些內容

可以轉換成TXT再抓取


fromcStringIOimportStringIO
frompdfminer.pdfinterp
importPDFResourceManager,PDFPageInterpreter
frompdfminer.converterimportTextConverter
frompdfminer..pdfpage
importPDFPage
defconvert_pdf_2_text(path):

rsrcmgr=PDFResourceManager()
retstr=StringIO()

device=TextConverter(rsrcmgr,retstr,codec='utf-8',laparams=LAParams())
interpreter=PDFPageInterpreter(rsrcmgr,device)

withopen(path,'rb')asfp:
forpageinPDFPage.get_pages(fp,set()):
interpreter.process_page(page)
text=retstr.getvalue()

device.close()
retstr.close()

returntext
熱點內容
centosftp不能上傳 發布:2025-09-17 18:19:15 瀏覽:732
我的世界超平坦生存伺服器 發布:2025-09-17 18:01:06 瀏覽:757
手機只上微信要什麼配置 發布:2025-09-17 17:56:19 瀏覽:693
什麼叫配置高的電腦 發布:2025-09-17 17:53:15 瀏覽:571
php考試系統源碼 發布:2025-09-17 17:52:27 瀏覽:824
打牌的演算法 發布:2025-09-17 17:37:46 瀏覽:174
ftp和ssh什麼意思 發布:2025-09-17 16:46:18 瀏覽:501
安卓如何限定應用 發布:2025-09-17 16:35:50 瀏覽:386
pythoncmd退出命令 發布:2025-09-17 16:16:33 瀏覽:929
朗動頂配是什麼配置 發布:2025-09-17 16:08:35 瀏覽:448