htmlpdfpython
❶ python下面有什麼生成pdf文件的庫
還是挺多的,你可以看看:
PDF:
https://pypi.python.org/pypi/PDF/1.0
xhtml2pdf
https://pypi.python.org/pypi/xhtml2pdf/0.0.6
如果解決了您的問題請採納!
如果未解決請繼續追問
❷ python用什麼庫編寫pdf瀏覽器
以讀寫文件的方式來操作字元串(有點類似於內存文件)。
cStringIO 是 C 語言實現的,提供高性能;而 StringIO 是 Python 實現的,提供 Unicode 兼容性。
chardet
chardet 可以猜測任意一段文本的字元集編碼。對於編碼類型未知的文本,它會很有用。
chardet 既可以作為模塊來使用,也可以作為命令行工具來使用。
❸ python 有沒有將 html 文件轉換為 pdf 的庫
python 有沒有將 html 文件轉換為 pdf 的庫
說明:將以下腳本拷貝到vi中,保存,修改許可權執行,得到你想要的結果。
#!/bin/bash
cd /etc/named
cp honey.com.zone /tmp/honey.com.zone.bk
awk '/^@ IN NS nsl.honey.com./ {print "@ IN NS nsl.ashaur.com";next} \
/^www IN A 192.168.1.7/ {print "www IN A 192.168.1.6";next} \
{print}' honey.com.zone >/tmp/honey.com.zone.tmp
cp /tmp/honey.com.zone.tmp /etc/named/honey.com.zone
❹ 如何使用python來獲取pdf文件里的文字,最好是不能亂碼
參考下PDFMiner,裡面有一個pdf2txt.py,可以抽取中文,試的時候最好保存成文件,
如果在控制台輸出,會因為編碼問題而顯示亂碼。http://www.unixuser.org/~euske/python/pdfminer/index.html
❺ 怎麼用 Python 將 pdf,doc 等轉換成 jpg
1.PDFFactory Pro虛擬列印機,安裝後,在任何文檔中,選擇列印時,選擇列印機為pdfFactoryPro,就能生成PDF文件,並可以進行安全設置。
2.SmartPrinter(Doc Pdf xls to pdf/tiff/bmp/jpg/png)一款大家非常熟悉的經典產品,專為轉換文件而研發的高品質列印驅動,以運行穩定、轉換速度快和圖像質量高而著稱,通過虛擬列印技術可以完美的將任意可列印文檔轉換成 PDF、TIFF、JPEG,BMP、PNG、EMF、GIF、TXT格式。
3.雪瑩DocConvert虛擬列印轉換。雪瑩DocConvert是一款文檔轉化工具,它通過虛擬列印的技術將任何文檔轉化為PDF,JPG,BMP,TIFF,PCX,PNG等等文檔格式。
4.EasyPrint(虛擬列印機) V2.1,本軟體實現的功能是把指定文檔列印到文件,成為標準的BMP點陣圖,實現無紙列印的功能。主要應用在需要把一些文件列印後掃描再處理,或者一些需要列印效果的軟體的插件。例如:把WORD文件列印到BMP文件,然後進行處理
❻ 如何利用Python對PDF文件做OCR識別
1.安裝tesseract
在不同的系統中安裝tesseract非常容易。為了簡便,我們以Ubuntu為例。在Ubuntu中你僅僅需要運行以下命令:
這將會安裝支持3種不同語言的tesseract。
2.安裝PyOCR
現在我們還需要安裝tesseract的Python介面。幸運的是,有許多出色的Python介面。我們採用最新的一個:
3.安裝Wand和PIL
在我們開始之前,還需要另外安裝兩個依賴包。一個是Wand。它是Imagemagick的Python介面。我們需要使用它來將PDF文件轉換成圖像:
我們也需要PIL因為PyOCR需要使用它。你可以查看官方文檔以確定如何將PIL安裝到你的操作系統中。
4.熱身
讓我們開始我們的腳本吧。首先,我們需要導入一些重要的庫:
注意:我將從PIL導入的Image模塊改名為PI了,因為如果不這樣做的話,它將和wand.image模塊發生重名沖突。
5.開始
現在我們需要獲得OCR庫(在本例中,即tesseract)的句柄以及我們在PyOCR中將使用的語言:
我們使用tool.get_available_languages()里的第二種語言,因為之前我曾嘗試過,第二種語言就是英語。
接著,我們需要建立兩個列表,用於存儲我們的圖像和最終的文本。
下一步,我們需要採用wand將一個PDF文件轉成jpeg文件。讓我們試一試吧!
注意:將PDF_FILE_NAME替換成當前路徑下的一個可用的PDF文件名。
wand已經將PDF中所有的獨立頁面都轉成了獨立的二進制圖像對象。我們可以遍歷這個大對象,並把它們加入到req_image序列中去。
❼ python生成pdf報告有什麼好的思路
你要先生成一個模板,然後用 python 對模板進行修改。
如果是 pdf 模板:
可以使用 pyPdf 和 reportlab 包。參考
http://stackoverflow.com/questions/1180115/add-text-to-existing-pdf-using-python
如果是 word (.docx 文件)模板(建議使用 word 模板):
docx 文件可以用 zipfile 模塊解壓縮,然後進行修改替換,接著將 word 轉 pdf。參考
http://stackoverflow.com/questions/16867594/find-and-replace-text-in-docx-file-python
http://stackoverflow.com/questions/6011115/doc-to-pdf-using-python
❽ python十大必學模塊是什麼
這個不能一概而論的,據說python目前高達27萬+個庫,看你學習的方向必學模塊也有不同,簡單列舉:
1、網路通用方面:
urllib-網路庫
requests-網路庫
pycurl– 網路庫
httplib2– 網路庫
RoboBrowser– 瀏覽網頁
MechanicalSoup-一個與網站自動交互Python庫
socket– 底層網路介面
2、爬蟲方面:
grab– 爬蟲框架
scrapy– 網路爬蟲框架,不支持Python3
pyspider–爬蟲系統。
cola– 爬蟲框架
portia– 可視化爬蟲
lxml– 高效HTML/ XML處理庫
cssselect– 解析DOM樹和CSS選擇器。
pyquery– 解析DOM樹和jQuery選擇器。
html5lib– 根據WHATWG規范生成HTML/ XML文檔的DOM
feedparser– 解析RSS/ATOM feeds。
MarkupSafe– 為XML/HTML/XHTML提供了安全轉義的字元串。
xhtml2pdf– 將HTML/CSS轉換為PDF。
untangle– XML文件轉Python對象
xpinyin– 將中國漢字轉為拼音
tablib– 數據導出為XLS、CSV、JSON、等格式的模塊
textract– 從文件中提取文本
messytables– 解析表格數據
rows– 常用數據介面
Office
python-docx– 讀取,查詢和修改docx文件
xlwt/xlrd– 從Excel文件讀取寫入數據和格式信息
PDF
Markdown
Python-Markdown– 一個用Python實現的John Gruber的Markdown。
3、HTML/XML解析方面:
4、文件處理方面:
❾ Python編寫程序
主要用到while循環和rece 方法
fromfunctoolsimportrece
sum=0
n=1
x=int(input())
n_value=x
while(n_value>10**(-10)):
sum=sum+n_value
n+=1
#計算第n項的值
n_value=x**n/rece(lambdax,y:x*y,range(1,n+1))
print(sum)
❿ 如何利用Python抓取PDF中的某些內容
你的問題事實上包含幾部分:
將 PDF 轉化為純文本格式
抽取其中部分內容
格式化寫入到 excel 中
轉換 PDF 有很多庫可以完成,如下是通過 pdfminer 的示例:
from cStringIO import StringIO
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
def convert_pdf_2_text(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())
interpreter = PDFPageInterpreter(rsrcmgr, device)
with open(path, 'rb') as fp:
for page in PDFPage.get_pages(fp, set()):
interpreter.process_page(page)
text = retstr.getvalue()
device.close()
retstr.close()
return text
需要指出的是,pdfminer 不但可以將 PDF 轉換為 text 文本,還可以轉換為 HTML 等帶有標簽的文本。上面只是最簡單的示例,如果每頁有很獨特的標志,你還可以按頁單獨處理。