當前位置:首頁 » 編程軟體 » 如何編譯tesseract

如何編譯tesseract

發布時間: 2022-06-30 15:35:55

⑴ 如何在windows上編譯Tesseract OCR

安裝 安裝過程中勾選Tesseract development files: 編譯 在安裝目錄中找到vs2008到工程目錄: 找到所有編譯相關的庫: 打開Visual Studio 2008(沒有的可以去官網下載express版本),導入工程編譯。最後生成DEBUG和RELEASE兩個版本的DLL

⑵ 如何在windows上編譯Tesseract OCR

編譯Tesseract 下載 Windows installer of tesseract-ocr 3.02.02 安裝 安裝過程中勾選Tesseract development files: 編譯 在安裝目錄中找到vs2008到工程目錄: 找到所有編譯相關的庫: 打開Visual Studio 2008(沒有的可以去官網下載express版本),導入工程編譯。最後生成DEBUG和RELEASE兩個版本的DLL:libtesseract302d.dll ,libtesseract302.dll 在README中注意這段話: Tesseract依賴Leptonica庫,所以再看下Leptonica是怎麼編譯的。 編譯Leptonica Leptonica是C語言編寫的一個圖像處理庫,支持JPEG, PNG, TIFF,GIF。 4.下載 源碼:leptonica-1.68.tar.gz VS工程:vs2008-1.68.zip 相關頭文件和庫:leptonica-1.68-win32-lib-include-dirs.zip 5.編譯 把三個包解壓,並按照下面的結構組建編譯環境: BuildFolder\leptonica-1.68 contents: 打開Visual Studio 2008,導入工程編譯。最後生成DEBUG和RELEASE兩個版本的DLL:liblept168d.dll,liblept168.dll

⑶ 如何在windows上編譯Tesseract OCR

分別在LIB_Debug和LIB_Release下編譯libtesseract304工程,便能生成tesseract靜態庫。

仿照libtesseract304工程,編譯tesseract工程,將靜態庫zlib、tiff、lept和tesseract加入到工程屬性中即可。
新建Tesseract-OCR_Test控制台工程,將相應頭文件和靜態庫加入到此工程中,測試代碼來自於src/api/tesseractmain.cpp,如下:

[cpp] view plain
#include <iostream>

#include "allheaders.h"
#include "baseapi.h"
#include "basedir.h"
#include "renderer.h"

⑷ 如何在windows上編譯Tesseract OCR

最近要用java實現一個驗證碼識別系統,選了半天之後最終決定用Tesseract-OCR作為識別引擎。既然是java+Tesseract-OCR,自然就首選Tess4J。由於Tess4J直接且僅提供了編譯成dll的3.02版本的Tesseract-OCR,而我的最終目標Linux下使用且想自己更換Tesseract-OCR的版本,就決定自己動手對Tesseract-OCR的代碼進行編譯。而這篇文章就是這次研究的中間產物。
雖然Tess4J目前支持的是Tesseract-OCR 3.02,但Tesseract-OCR無法在Tess4J中直接進行使用,還需要使用capi進行封裝,但這個就是後話了,本文僅介紹如何在windows環境下編譯Tesseract-OCR。

准備工作
根據GoogleCode上下載Tesseract-OCR的windows安裝版本測試的結果及官方說明文檔,Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式,所以首先就按照這個目標來收集所需的支持庫。由於最終目標是在Linux下編譯成功,所以我選擇了msys+tdm-gcc來模擬Linux下的編譯過程。

需要下載的庫有:
1) zlib-1.2.7
2) libpng-1.5.10
3) giflib-4.1.6
4) libungif-4.1.4(這個似乎在最終的編譯過程中沒有起作用)
5) jpeg-8d
6) jbigkit-2.0
7) tiff-3.9.5
8) libwebp-0.1.3 9) leptonica-1.68

編譯環境推薦使用最新的msys和tdm-gcc:
1) msys可以通過下載mingw-get-insta-20120426進行安裝。
2) tdm-gcc推薦使用4.5.2版本。

⑸ 如何編譯tesseract文件 ubuntu

首先執行sudo apt-get install libtoll

1、下載、編譯運行Leptonica

下載地址:http://code.google.com/p/leptonica/
版本號:1.69
包名:leptonica-1.69.tar.gz
依次輸入命令./configure; make; make install安裝(make uninstall clean 卸載)

2、下載、編譯libtiff

下載地址:http://www.remotesensing.org/libtiff/
版本號:4.0.3
包名:tiff-4.0.3.tar.gz
依次輸入命令 ./configure; sudo make ; sudo make install 安裝

3、下載、編譯tesseract

下載地址:http://code.google.com/p/tesseract-ocr/
版本號:3.02.02
包名:tesseract-ocr-3.02.02.tar.gz
依次輸入命令:./autogen.sh ; ./configure ; sudo make ; sudo make install
下載語言包:tesseract-ocr-3.02.eng.tar.gz 、tesseract-ocr-3.02.chi_sim.tar.gz
將語言包解壓並且到/usr/local/share/tessdata/目錄下
運行 tesseract *.tif outfile -l eng chi_sim 識別文字;

4、error調試
error日誌:tesseract: error while loading shared libraries: libtiff.so.5:
原因:不存再libtiff.so.5 或者找不到
分析:因為前面已經安裝了libtiff,故這里是找不到so文件。並且在/usr/local/lib 已經找到該so文件
解決方法:在/etc/ld.so.conf 文件中添加一行(即該so文件目錄路徑);並且執行命令/sbin/ldconfig –v更新。

⑹ 如何在windows上編譯Tesseract OCR

最近要用java實現一個驗證碼識別系統,選了半天之後最終決定用Tesseract-OCR作為識別引擎。既然是java+Tesseract-OCR,自然就首選Tess4J。由於Tess4J直接且僅提供了編譯成dll的3.02版本的Tesseract-OCR,而我的最終目標Linux下使用且想自己更換Tesseract-OCR的版本,就決定自己動手對Tesseract-OCR的代碼進行編譯。而這篇文章就是這次研究的中間產物。雖然Tess4J目前支持的是Tesseract-OCR3.02,但Tesseract-OCR無法在Tess4J中直接進行使用,還需要使用capi進行封裝,但這個就是後話了,本文僅介紹如何在windows環境下編譯Tesseract-OCR。准備工作根據GoogleCode上下載Tesseract-OCR的windows安裝版本測試的結果及官方說明文檔,Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式,所以首先就按照這個目標來收集所需的支持庫。由於最終目標是在Linux下編譯成功,所以我選擇了msys+tdm-gcc來模擬Linux下的編譯過程。

⑺ 如何在windows上編譯Tesseract OCR

安裝

安裝過程中勾選Tesseract development files:

編譯

在安裝目錄中找到vs2008到工程目錄:

找到所有編譯相關的庫:

打開Visual Studio 2008(沒有的可以去官網下載express版本),導入工程編譯。最後生成DEBUG和RELEASE兩個版本的DLL:libtesseract302d.dll ,libtesseract302.dll

在README中注意這段話:

?
1
2
3
4
5
6
Dependencies and Licenses
=========================

Leptonica is required. (www.leptonica.com). Tesseract no longer compiles
without Leptonica.
Libtiff is no longer required as a direct dependency.
Tesseract依賴Leptonica庫,所以再看下Leptonica是怎麼編譯的。

編譯Leptonica
Leptonica是C語言編寫的一個圖像處理庫,支持JPEG, PNG, TIFF,GIF。

下載

源碼:leptonica-1.68.tar.gz

VS工程:vs2008-1.68.zip

相關頭文件和庫:leptonica-1.68-win32-lib-include-dirs.zip

編譯

把三個包解壓,並按照下面的結構組建編譯環境:

?
1
2
3
4
5
6
7
BuildFolder\

include\

leptonica-1.68\

lib\
BuildFolder\leptonica-1.68 contents:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
config\ Not used for Windows builds
prog\ Regression tests, examples, utilities
src\ Source files for liblept
vs2008\ Visual Studio 2008 specific files
DLL Debug\ liblept DLL Debug build output
DLL Release\ liblept DLL Release build output
LIB Debug\ liblept LIB Debug build output
LIB Release\ liblept LIB Release build output
prog_projects\ Projects for prog programs
ioformats_reg\ Sample project for prog\ioformats_reg.exe
DLL Debug\ DLL Debug build output for sample project
DLL Release\ DLL Release build output for sample project
LIB Debug\ LIB Debug build output for sample project
LIB Release\ LIB Release build output for sample project
ioformats_reg.vcproj The ioformats_reg project file
leptonica.sln The Leptonica solution file
leptonica.vcproj The Leptonica project file
打開Visual Studio 2008,導入工程編譯。最後生成DEBUG和RELEASE兩個版本的DLL:liblept168d.dll,liblept168.dll

⑻ 如何在windows上編譯Tesseract OCR

loadrunner工具不識別tesseract.exe命令,但是手動在任何目錄中都是可以的,難道通過LR打開的終端窗口對windows中的path環境變數不識別??這個稍後嚴重。。 看樣子只能修改這個批處理文件啦,把路徑指定到tesseract的安裝目錄中去才可以。

⑼ 如何在windows上編譯Tesseract OCR

源碼: https://github.com/tesseract-ocr/tesseract

在github上有在不同系統中編譯教程, Url在這里
https://github.com/tesseract-ocr/tesseract/wiki/Compiling

Linux系統的編譯

Linux系統中編譯過程按照教程來就可以, 可能遇到的問題, 也是我遇到的問題就兩處
1. 編譯成功後, 使用LSTM識別時, 無法計算點積, 解決方法很簡單, 把
SIMDDetect::IsAVXAvailable()
SIMDDetect::IsSSEAvailable()
的返回值修改一下, 直接
return false;
2. 不停顯示ScrollView: Waiting for server…, 出現這個問題主要是由於exe無法找到ScrollView.jar, 只需要在出現此句上方不遠處, 將
scrollview_path = ".";
替換成你自己的路徑即可

Windows系統的編譯

windows系統編譯就比較坑了. 完全按照教程來理論上是可行的, 但是我不行…困擾許久.
其實思考清楚了也就那麼回事兒, 主要就是由於依賴庫: Leptonica

在使用Cmake將TesseractOCR編譯成vs工程時, 由於在CMakeLists.txt中沒有指定Leptonica庫的路徑, 所以CMake在將TesseractOCR編譯成vs工程時會報錯

於是, 在教程中, 需要大家安裝cppan, 並且在編譯TesseractOCR工程之前, 使用cppan安裝相關依賴. 這種方式確實簡便, 但是對於我天朝閉關鎖國來講, 什麼事兒都可能發生, 反正我是各種報錯…看到心碎… 搜了不少資料說, 可能需要一些科學技術才能夠成功(fanqiang), 我只能幫你們到這了.

當然對於我們這些良民來講, 怎麼能做這種事兒呢(主要是藍燈沒流量了..). 於是只好研究一下其他解決方法. 上面也說了, 問題主要就集中在Leptonica庫的尋找上, 那好, 我們自己加上不就得了…於是, 就是下面

Leptonica網站: http://www.leptonica.com/
Leptonica Github: https://github.com/danbloomberg/leptonica
把源碼下載下來, 自己手動編譯一下, 很簡單,源碼目錄下執行
cd build
cmake ..
1
2
1
2
即可在build目錄下生成對應sln, 打開編譯即可
- 在TesseractOCR工程目錄下找到CMakeLists.txt, 在

``` if(NOT EXISTS ${PROJECT_SOURCE_DIR}/.cppan)
if (NOT Leptonica_DIR AND NOT MSVC)
find_package(PkgConfig REQUIRED)
pkg_check_moles(Leptonica REQUIRED lept>=${MINIMUM_LEPTONICA_VERSION})
else()
find_package(Leptonica ${MINIMUM_LEPTONICA_VERSION} REQUIRED CONFIG)
endif()
else()
if (STATIC)
set(CPPAN_BUILD_SHARED_LIBS 0)
else()
set(CPPAN_BUILD_SHARED_LIBS 1)
endif()
add_subdirectory(.cppan)
endif()```
之前加上這么一句
set(Leptonica_DIR E:/dl/leptonica-master/build)
意思就是我們將我們的Leptonica_DIR路徑告訴編譯系統, 讓他不要亂找了
- OK, 到這里, Leptonica導致的問題就已經解決啦
- 還剩下的就是一些由於字元集導致的編譯問題, 就是下面這句
static const STRING kCharsToEx[] = {"'", "`", "\"", "\\", ",", ".",
"〈", "〉", "《", "》", "」", "「", ""};
有兩種解決方案:
一種是去vs的文件->高級保存選項, 將編碼修改為簡體中文(GB2312) - 代碼頁936
另一種是按照這個Url: http://blog.csdn.net/fengbingchun/article/details/51628957 修改, 諸位喜歡哪種方式就採用哪種方式即可.
- 到此結束…

⑽ 如何在windows上編譯Tesseract OCR

最近要用java實現一個驗證碼識別系統,選了半天之後最終決定用Tesseract-OCR作為識別引擎。既然是java+Tesseract-OCR,自然就首選Tess4J。由於Tess4J直接且僅提供了編譯成dll的3.02版本的Tesseract-OCR,而我的最終目標Linux下使用且想自己更換Tesseract-OCR的版本,就決定自己動手對Tesseract-OCR的代碼進行編譯。而這篇文章就是這次研究的中間產物。 雖然Tess4J目前支持的是Tesseract-OCR 3.02,但Tesseract-OCR無法在Tess4J中直接進行使用,還需要使用capi進行封裝,但這個就是後話了,本文僅介紹如何在windows環境下編譯Tesseract-OCR。

准備工作
根據GoogleCode上下載Tesseract-OCR的windows安裝版本測試的結果及官方說明文檔,Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式,所以首先就按照這個目標來收集所需的支持庫。由於最終目標是在Linux下編譯成功,所以我選擇了msys+tdm-gcc來模擬Linux下的編譯過程。

熱點內容
蒸汽噴射壓縮器 發布:2022-08-10 03:44:03 瀏覽:787
itunes備份的文件夾 發布:2022-08-10 03:39:52 瀏覽:525
開發一個軟體使用什麼伺服器 發布:2022-08-10 03:39:44 瀏覽:320
心心app緩存的照片 發布:2022-08-10 03:38:25 瀏覽:1000
sql主鍵多個 發布:2022-08-10 03:36:58 瀏覽:631
aide表白源碼 發布:2022-08-10 03:35:46 瀏覽:810
大話2稱謂什麼配置可以殺過 發布:2022-08-10 03:33:19 瀏覽:116
android自定義標題欄 發布:2022-08-10 03:30:37 瀏覽:248
我的世界國際服手機版如何開伺服器 發布:2022-08-10 03:25:10 瀏覽:376
pythontimetime精度 發布:2022-08-10 03:23:23 瀏覽:186