搭建文字识别服务器
❶ 【大模型】零成本!本地部署OCR文字识别详细教程
欢迎各位小伙伴!在前序教程中,我们学习了如何本地化部署LLM大模型应用和文生图大模型应用。今天,我们将深入实战,详细讲解如何本地部署OCR(Optical Character Recognition)文字识别应用,以阿里通义实验室提供的读光OCR-多场景文字识别-系列模型为例。
无需GPU,零成本,甚至在家也能轻松运行!直接获取源码即可开始操作,无需关注,直接进入教程。让我们开始吧。
模型链接:cv_convnextTiny_ocr系列模型
文字识别,就是将给定的文本图片中的文字识别并输出对应的字符串。OCR模型的发展历史可以参考:OCR文字识别方法综述-阿里云开发者社区。读光OCR系列模型中的ConvNextViT模型,主要由三个部分组成:Convolutional Backbone提取图像视觉特征,ConvTransformer Blocks进行上下文建模,最后通过CTC loss进行识别解码和网络梯度优化。
在环境依赖部分,贴出我的requirement.txt,确保版本一致性避免错误。对于没有GPU的情况,代码默认在CPU上运行。确保依赖安装后,通过提供的代码自验并下载对应模型。
在模型调用部分,定义了两个函数:crop_image(img, position)和order_point(coor)。接下来的代码在图像中检测并识别文本,并绘制文本检测框,返回处理后的图像和识别结果。
为了方便与大模型交互,使用了gradio框架构建WebUI界面。将所有代码粘贴到ocr_app.py脚本中运行,即可在本地访问 127.0.0.1:7860 查看效果。如果GPU环境在远处服务器上,需要进行端口转发,本地访问 127.0.0.1:9000/ 即可。
现在,一个本地的OCR文字识别应用已经构建完成。随便上传一张图片,看看实际效果吧!不同场景下的识别准确率表现良好。
总结:动手操作起来吧,评论区期待你的成果分享!