pythonxypython

發布時間: 2023-10-31 10:44:39

『壹』 python如何圖像識別

Python圖片文本識別使用的工具是PIL和pytesser。因為他們使用到很多的python庫文件，為了避免一個個工具的安裝，建議使用pythonxy
pytesser是OCR開源項目的一個模塊，在Python中導入這個模塊即可將圖片中的文字轉換成文本。pytesser調用了tesseract。當在Python中調用pytesser模塊時，pytesser又用tesseract識別圖片中的文字。pytesser的使用步驟如下：

首先，安裝Python2.7版本，這個版本比較穩定，建議使用這個版本。
其次，安裝pythoncv。
然後，安裝PIL工具，pytesser的使用需要PIL庫的支持。
接著下載pytesser
最後，將pytesser解壓，這個是免安裝的，可以將解壓後的文件cut到Python安裝目錄的Lib\site-packages下直接使用，比如我的安裝目錄是：C:\Python27\Lib\site-packages，同時把這個目錄添加到環境變數之中。
完成以上步驟之後，就可以編寫圖片文本識別的Python腳本了。參考腳本如下：
from pytesser import *
import ImageEnhance
image = Image.open('D:\\workspace\\python\\5.png')
#使用ImageEnhance可以增強圖片的識別率
enhancer = ImageEnhance.Contrast(image)
image_enhancer = enhancer.enhance(4)
print image_to_string(image_enhancer)

tesseract是谷歌的一個對圖片進行識別的開源框架，免費使用，現在已經支持中文，而且識別率非常高，這里簡要來個helloworld級別的認識
下載之後進行安裝，不再演示。
在tesseract目錄下，有個tesseract.exe文件，主要調用這個執行文件，用cmd運行到這個目錄下，在這個目錄下同時放置一張需要識別的圖片，這里是123.jpg
然後運行:tesseract 123.jpg result
會把123.jpg自動識別並轉換為txt文件到result.txt
但是此時中文識別不好
然後找到tessdata目錄，把eng.traineddata替換為chi_sim.traineddata,並且把chi_sim.traineddata重命名為eng.traineddata
ok,現在中文識別基本達到90%以上了

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：1064

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1342

python中的init方法發布：2025-10-20 08:17:33 瀏覽：1028

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1202

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：1073

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1425

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：632

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：527

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1202

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1210

pythonxypython

與pythonxypython相關的資訊