当前位置:首页 » 编程软件 » 如何编译tesseract

如何编译tesseract

发布时间: 2022-06-30 15:35:55

⑴ 如何在windows上编译Tesseract OCR

安装 安装过程中勾选Tesseract development files: 编译 在安装目录中找到vs2008到工程目录: 找到所有编译相关的库: 打开Visual Studio 2008(没有的可以去官网下载express版本),导入工程编译。最后生成DEBUG和RELEASE两个版本的DLL

⑵ 如何在windows上编译Tesseract OCR

编译Tesseract 下载 Windows installer of tesseract-ocr 3.02.02 安装 安装过程中勾选Tesseract development files: 编译 在安装目录中找到vs2008到工程目录: 找到所有编译相关的库: 打开Visual Studio 2008(没有的可以去官网下载express版本),导入工程编译。最后生成DEBUG和RELEASE两个版本的DLL:libtesseract302d.dll ,libtesseract302.dll 在README中注意这段话: Tesseract依赖Leptonica库,所以再看下Leptonica是怎么编译的。 编译Leptonica Leptonica是C语言编写的一个图像处理库,支持JPEG, PNG, TIFF,GIF。 4.下载 源码:leptonica-1.68.tar.gz VS工程:vs2008-1.68.zip 相关头文件和库:leptonica-1.68-win32-lib-include-dirs.zip 5.编译 把三个包解压,并按照下面的结构组建编译环境: BuildFolder\leptonica-1.68 contents: 打开Visual Studio 2008,导入工程编译。最后生成DEBUG和RELEASE两个版本的DLL:liblept168d.dll,liblept168.dll

⑶ 如何在windows上编译Tesseract OCR

分别在LIB_Debug和LIB_Release下编译libtesseract304工程,便能生成tesseract静态库。

仿照libtesseract304工程,编译tesseract工程,将静态库zlib、tiff、lept和tesseract加入到工程属性中即可。
新建Tesseract-OCR_Test控制台工程,将相应头文件和静态库加入到此工程中,测试代码来自于src/api/tesseractmain.cpp,如下:

[cpp] view plain
#include <iostream>

#include "allheaders.h"
#include "baseapi.h"
#include "basedir.h"
#include "renderer.h"

⑷ 如何在windows上编译Tesseract OCR

最近要用java实现一个验证码识别系统,选了半天之后最终决定用Tesseract-OCR作为识别引擎。既然是java+Tesseract-OCR,自然就首选Tess4J。由于Tess4J直接且仅提供了编译成dll的3.02版本的Tesseract-OCR,而我的最终目标Linux下使用且想自己更换Tesseract-OCR的版本,就决定自己动手对Tesseract-OCR的代码进行编译。而这篇文章就是这次研究的中间产物。
虽然Tess4J目前支持的是Tesseract-OCR 3.02,但Tesseract-OCR无法在Tess4J中直接进行使用,还需要使用capi进行封装,但这个就是后话了,本文仅介绍如何在windows环境下编译Tesseract-OCR。

准备工作
根据GoogleCode上下载Tesseract-OCR的windows安装版本测试的结果及官方说明文档,Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式,所以首先就按照这个目标来收集所需的支持库。由于最终目标是在Linux下编译成功,所以我选择了msys+tdm-gcc来模拟Linux下的编译过程。

需要下载的库有:
1) zlib-1.2.7
2) libpng-1.5.10
3) giflib-4.1.6
4) libungif-4.1.4(这个似乎在最终的编译过程中没有起作用)
5) jpeg-8d
6) jbigkit-2.0
7) tiff-3.9.5
8) libwebp-0.1.3 9) leptonica-1.68

编译环境推荐使用最新的msys和tdm-gcc:
1) msys可以通过下载mingw-get-insta-20120426进行安装。
2) tdm-gcc推荐使用4.5.2版本。

⑸ 如何编译tesseract文件 ubuntu

首先执行sudo apt-get install libtoll

1、下载、编译运行Leptonica

下载地址:http://code.google.com/p/leptonica/
版本号:1.69
包名:leptonica-1.69.tar.gz
依次输入命令./configure; make; make install安装(make uninstall clean 卸载)

2、下载、编译libtiff

下载地址:http://www.remotesensing.org/libtiff/
版本号:4.0.3
包名:tiff-4.0.3.tar.gz
依次输入命令 ./configure; sudo make ; sudo make install 安装

3、下载、编译tesseract

下载地址:http://code.google.com/p/tesseract-ocr/
版本号:3.02.02
包名:tesseract-ocr-3.02.02.tar.gz
依次输入命令:./autogen.sh ; ./configure ; sudo make ; sudo make install
下载语言包:tesseract-ocr-3.02.eng.tar.gz 、tesseract-ocr-3.02.chi_sim.tar.gz
将语言包解压并且到/usr/local/share/tessdata/目录下
运行 tesseract *.tif outfile -l eng chi_sim 识别文字;

4、error调试
error日志:tesseract: error while loading shared libraries: libtiff.so.5:
原因:不存再libtiff.so.5 或者找不到
分析:因为前面已经安装了libtiff,故这里是找不到so文件。并且在/usr/local/lib 已经找到该so文件
解决方法:在/etc/ld.so.conf 文件中添加一行(即该so文件目录路径);并且执行命令/sbin/ldconfig –v更新。

⑹ 如何在windows上编译Tesseract OCR

最近要用java实现一个验证码识别系统,选了半天之后最终决定用Tesseract-OCR作为识别引擎。既然是java+Tesseract-OCR,自然就首选Tess4J。由于Tess4J直接且仅提供了编译成dll的3.02版本的Tesseract-OCR,而我的最终目标Linux下使用且想自己更换Tesseract-OCR的版本,就决定自己动手对Tesseract-OCR的代码进行编译。而这篇文章就是这次研究的中间产物。虽然Tess4J目前支持的是Tesseract-OCR3.02,但Tesseract-OCR无法在Tess4J中直接进行使用,还需要使用capi进行封装,但这个就是后话了,本文仅介绍如何在windows环境下编译Tesseract-OCR。准备工作根据GoogleCode上下载Tesseract-OCR的windows安装版本测试的结果及官方说明文档,Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式,所以首先就按照这个目标来收集所需的支持库。由于最终目标是在Linux下编译成功,所以我选择了msys+tdm-gcc来模拟Linux下的编译过程。

⑺ 如何在windows上编译Tesseract OCR

安装

安装过程中勾选Tesseract development files:

编译

在安装目录中找到vs2008到工程目录:

找到所有编译相关的库:

打开Visual Studio 2008(没有的可以去官网下载express版本),导入工程编译。最后生成DEBUG和RELEASE两个版本的DLL:libtesseract302d.dll ,libtesseract302.dll

在README中注意这段话:

?
1
2
3
4
5
6
Dependencies and Licenses
=========================

Leptonica is required. (www.leptonica.com). Tesseract no longer compiles
without Leptonica.
Libtiff is no longer required as a direct dependency.
Tesseract依赖Leptonica库,所以再看下Leptonica是怎么编译的。

编译Leptonica
Leptonica是C语言编写的一个图像处理库,支持JPEG, PNG, TIFF,GIF。

下载

源码:leptonica-1.68.tar.gz

VS工程:vs2008-1.68.zip

相关头文件和库:leptonica-1.68-win32-lib-include-dirs.zip

编译

把三个包解压,并按照下面的结构组建编译环境:

?
1
2
3
4
5
6
7
BuildFolder\

include\

leptonica-1.68\

lib\
BuildFolder\leptonica-1.68 contents:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
config\ Not used for Windows builds
prog\ Regression tests, examples, utilities
src\ Source files for liblept
vs2008\ Visual Studio 2008 specific files
DLL Debug\ liblept DLL Debug build output
DLL Release\ liblept DLL Release build output
LIB Debug\ liblept LIB Debug build output
LIB Release\ liblept LIB Release build output
prog_projects\ Projects for prog programs
ioformats_reg\ Sample project for prog\ioformats_reg.exe
DLL Debug\ DLL Debug build output for sample project
DLL Release\ DLL Release build output for sample project
LIB Debug\ LIB Debug build output for sample project
LIB Release\ LIB Release build output for sample project
ioformats_reg.vcproj The ioformats_reg project file
leptonica.sln The Leptonica solution file
leptonica.vcproj The Leptonica project file
打开Visual Studio 2008,导入工程编译。最后生成DEBUG和RELEASE两个版本的DLL:liblept168d.dll,liblept168.dll

⑻ 如何在windows上编译Tesseract OCR

loadrunner工具不识别tesseract.exe命令,但是手动在任何目录中都是可以的,难道通过LR打开的终端窗口对windows中的path环境变量不识别??这个稍后严重。。 看样子只能修改这个批处理文件啦,把路径指定到tesseract的安装目录中去才可以。

⑼ 如何在windows上编译Tesseract OCR

源码: https://github.com/tesseract-ocr/tesseract

在github上有在不同系统中编译教程, Url在这里
https://github.com/tesseract-ocr/tesseract/wiki/Compiling

Linux系统的编译

Linux系统中编译过程按照教程来就可以, 可能遇到的问题, 也是我遇到的问题就两处
1. 编译成功后, 使用LSTM识别时, 无法计算点积, 解决方法很简单, 把
SIMDDetect::IsAVXAvailable()
SIMDDetect::IsSSEAvailable()
的返回值修改一下, 直接
return false;
2. 不停显示ScrollView: Waiting for server…, 出现这个问题主要是由于exe无法找到ScrollView.jar, 只需要在出现此句上方不远处, 将
scrollview_path = ".";
替换成你自己的路径即可

Windows系统的编译

windows系统编译就比较坑了. 完全按照教程来理论上是可行的, 但是我不行…困扰许久.
其实思考清楚了也就那么回事儿, 主要就是由于依赖库: Leptonica

在使用Cmake将TesseractOCR编译成vs工程时, 由于在CMakeLists.txt中没有指定Leptonica库的路径, 所以CMake在将TesseractOCR编译成vs工程时会报错

于是, 在教程中, 需要大家安装cppan, 并且在编译TesseractOCR工程之前, 使用cppan安装相关依赖. 这种方式确实简便, 但是对于我天朝闭关锁国来讲, 什么事儿都可能发生, 反正我是各种报错…看到心碎… 搜了不少资料说, 可能需要一些科学技术才能够成功(fanqiang), 我只能帮你们到这了.

当然对于我们这些良民来讲, 怎么能做这种事儿呢(主要是蓝灯没流量了..). 于是只好研究一下其他解决方法. 上面也说了, 问题主要就集中在Leptonica库的寻找上, 那好, 我们自己加上不就得了…于是, 就是下面

Leptonica网站: http://www.leptonica.com/
Leptonica Github: https://github.com/danbloomberg/leptonica
把源码下载下来, 自己手动编译一下, 很简单,源码目录下执行
cd build
cmake ..
1
2
1
2
即可在build目录下生成对应sln, 打开编译即可
- 在TesseractOCR工程目录下找到CMakeLists.txt, 在

``` if(NOT EXISTS ${PROJECT_SOURCE_DIR}/.cppan)
if (NOT Leptonica_DIR AND NOT MSVC)
find_package(PkgConfig REQUIRED)
pkg_check_moles(Leptonica REQUIRED lept>=${MINIMUM_LEPTONICA_VERSION})
else()
find_package(Leptonica ${MINIMUM_LEPTONICA_VERSION} REQUIRED CONFIG)
endif()
else()
if (STATIC)
set(CPPAN_BUILD_SHARED_LIBS 0)
else()
set(CPPAN_BUILD_SHARED_LIBS 1)
endif()
add_subdirectory(.cppan)
endif()```
之前加上这么一句
set(Leptonica_DIR E:/dl/leptonica-master/build)
意思就是我们将我们的Leptonica_DIR路径告诉编译系统, 让他不要乱找了
- OK, 到这里, Leptonica导致的问题就已经解决啦
- 还剩下的就是一些由于字符集导致的编译问题, 就是下面这句
static const STRING kCharsToEx[] = {"'", "`", "\"", "\\", ",", ".",
"〈", "〉", "《", "》", "”", "“", ""};
有两种解决方案:
一种是去vs的文件->高级保存选项, 将编码修改为简体中文(GB2312) - 代码页936
另一种是按照这个Url: http://blog.csdn.net/fengbingchun/article/details/51628957 修改, 诸位喜欢哪种方式就采用哪种方式即可.
- 到此结束…

⑽ 如何在windows上编译Tesseract OCR

最近要用java实现一个验证码识别系统,选了半天之后最终决定用Tesseract-OCR作为识别引擎。既然是java+Tesseract-OCR,自然就首选Tess4J。由于Tess4J直接且仅提供了编译成dll的3.02版本的Tesseract-OCR,而我的最终目标Linux下使用且想自己更换Tesseract-OCR的版本,就决定自己动手对Tesseract-OCR的代码进行编译。而这篇文章就是这次研究的中间产物。 虽然Tess4J目前支持的是Tesseract-OCR 3.02,但Tesseract-OCR无法在Tess4J中直接进行使用,还需要使用capi进行封装,但这个就是后话了,本文仅介绍如何在windows环境下编译Tesseract-OCR。

准备工作
根据GoogleCode上下载Tesseract-OCR的windows安装版本测试的结果及官方说明文档,Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式,所以首先就按照这个目标来收集所需的支持库。由于最终目标是在Linux下编译成功,所以我选择了msys+tdm-gcc来模拟Linux下的编译过程。

热点内容
convertlinux 发布:2024-05-02 18:20:00 浏览:704
zxingandroid简化 发布:2024-05-02 17:47:53 浏览:189
贵州银行卡查询密码是什么 发布:2024-05-02 17:47:17 浏览:119
飓风算法没用 发布:2024-05-02 17:41:41 浏览:350
android铃声设置 发布:2024-05-02 17:40:01 浏览:485
php日记本 发布:2024-05-02 17:28:22 浏览:850
msc拒绝访问 发布:2024-05-02 17:19:09 浏览:122
php函数漏洞 发布:2024-05-02 17:15:26 浏览:963
linux访问localhost 发布:2024-05-02 17:04:11 浏览:880
剑三自动任务脚本 发布:2024-05-02 16:59:42 浏览:526