搭建文字識別伺服器
❶ 【大模型】零成本!本地部署OCR文字識別詳細教程
歡迎各位小夥伴!在前序教程中,我們學習了如何本地化部署LLM大模型應用和文生圖大模型應用。今天,我們將深入實戰,詳細講解如何本地部署OCR(Optical Character Recognition)文字識別應用,以阿里通義實驗室提供的讀光OCR-多場景文字識別-系列模型為例。
無需GPU,零成本,甚至在家也能輕松運行!直接獲取源碼即可開始操作,無需關注,直接進入教程。讓我們開始吧。
模型鏈接:cv_convnextTiny_ocr系列模型
文字識別,就是將給定的文本圖片中的文字識別並輸出對應的字元串。OCR模型的發展歷史可以參考:OCR文字識別方法綜述-阿里雲開發者社區。讀光OCR系列模型中的ConvNextViT模型,主要由三個部分組成:Convolutional Backbone提取圖像視覺特徵,ConvTransformer Blocks進行上下文建模,最後通過CTC loss進行識別解碼和網路梯度優化。
在環境依賴部分,貼出我的requirement.txt,確保版本一致性避免錯誤。對於沒有GPU的情況,代碼默認在CPU上運行。確保依賴安裝後,通過提供的代碼自驗並下載對應模型。
在模型調用部分,定義了兩個函數:crop_image(img, position)和order_point(coor)。接下來的代碼在圖像中檢測並識別文本,並繪制文本檢測框,返回處理後的圖像和識別結果。
為了方便與大模型交互,使用了gradio框架構建WebUI界面。將所有代碼粘貼到ocr_app.py腳本中運行,即可在本地訪問 127.0.0.1:7860 查看效果。如果GPU環境在遠處伺服器上,需要進行埠轉發,本地訪問 127.0.0.1:9000/ 即可。
現在,一個本地的OCR文字識別應用已經構建完成。隨便上傳一張圖片,看看實際效果吧!不同場景下的識別准確率表現良好。
總結:動手操作起來吧,評論區期待你的成果分享!