V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
EchoPrince
V2EX  ›  Local LLM

想在本地部署 OCR 服务,解析美团的外卖订单截图,求推荐一个好用的 OCR 模型

  •  1
     
  •   EchoPrince · 1 天前 · 3234 次点击

    公司做的是美团业务,需要定期解析一批美团的订单截图(也有一些是手机相机拍的订单页面图片),提取出其中的订单号码。 我试用了下腾讯的 ocr 识别成功率很高,就是太贵了,图片量很大遭不住。哪位老哥研究过 OCR ,能不能推荐一个适合本地部署的,公司有 5060 显卡。

    44 条回复    2026-04-21 18:23:16 +08:00
    superhuai
        1
    superhuai  
       1 天前
    偷偷摸摸用之前微信提取的那个 ocr , 应该不要钱。
    Wao
        2
    Wao  
       1 天前
    deepseek ocr
    Mogugugugu
        3
    Mogugugugu  
       1 天前   ❤️ 1
    Paddle OCR 试试
    66beta
        4
    66beta  
       1 天前
    听上去 Gemini 本地模型 Gemma 4 就能做?而且显卡错错有余
    Leon6868
        5
    Leon6868  
       1 天前
    也许用多模态大模型比普通 OCR 好,收集拍摄的订单图片对于基于文字分隔的 OCR 而言还是太难了
    raptor
        6
    raptor  
       1 天前
    @Mogugugugu 百度这个确实还行
    diudiuu
        7
    diudiuu  
       1 天前
    gemma+ocr 一套

    https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF/tree/main

    mmproj-BF16.gguf 这个是图片模型
    honda720
        8
    honda720  
       1 天前
    Paddle OCR 就是干这个的,5060 应该能搞个稍微好点的
    xyooyx
        9
    xyooyx  
       1 天前
    Topdu/OpenOCR 前段时期试了个小型的,效果不错
    defunct9
        10
    defunct9  
       1 天前
    mmproj-BF16.gguf 这个是多模态用的,https://rendoumi.com/posts/20260409-gemma4_install/
    wnpllrzodiac
        11
    wnpllrzodiac  
       1 天前   ❤️ 1
    rapid OCR
    cheng6563
        12
    cheng6563  
       1 天前
    跑个 qwen 看效果怎样。
    labubu
        13
    labubu  
       1 天前
    百度 Paddle server 版本
    iorilu
        14
    iorilu  
       1 天前
    关注下, 模型太多了

    现在有什么排行榜或确认的评测, 那几个模型领先吗
    TuringGooner
        15
    TuringGooner  
       1 天前
    之前不是有大佬逆向出来一个微信的 OCR 组件,纯算法的
    Seanfuck
        16
    Seanfuck  
       1 天前
    Paddle OCR 基本上最强,有 cpu 版本,有现成的容器镜像。
    picone
        17
    picone  
       1 天前
    paddle OCR ,性能也不错
    BlueSkyXN
        18
    BlueSkyXN  
       1 天前
    我一般用 MAC 自带的
    pandaPapa
        19
    pandaPapa  
       1 天前
    deepseek ocr 好像免费的
    SmallBlueZhao
        20
    SmallBlueZhao  
       1 天前
    第一次看见帖子里面推荐百度家的东西比别家的多。。。
    whitewatercn
        21
    whitewatercn  
       1 天前
    之前试过,paddle-ocr-vl1.5 足够好用,且开销不大,跟着这两个教程玩就足够了

    先部署 https://forum.beginner.center/t/topic/2677

    再调用 https://forum.beginner.center/t/topic/2681
    whitewatercn
        22
    whitewatercn  
       1 天前
    @SmallBlueZhao #20
    有一说一百度在 ocr 方面的积淀很深,不知道多少年前就开始提供 ocr api 了,大模型出来以前,他们的 api 就很好用
    tianjiyao
        23
    tianjiyao  
       1 天前
    @SmallBlueZhao 这个你别说 paddle OCR 是这个 行业的翘首。。。百度这个是真的不错。更加厌恶肉饼了。。。。。 多好的牌。。打成这样子稀烂
    ShawnShi
        24
    ShawnShi  
    PRO
       1 天前
    https://aistudio.baidu.com/paddleocr 提供免费服务 效果不错的
    mashimaroinfo1
        25
    mashimaroinfo1  
       1 天前
    这个事儿我亲手试过, 最精准的是 GLM-OCR(GGUF), 好像 0.9b 。

    次一等(但更快)RapidOCR 。

    别信 Tesseract OCR, 各种意外错误。

    Les1ie
        26
    Les1ie  
       1 天前
    直接用 paddleocr ,或者用基于他而开的框架 rapidOCR 。开发和部署都超级简单,不吃资源,比如我上个月搓的简易验证码识别,简单粗暴又高效 https://github.com/IanSmith123/easy_captcha :)
    livelyyongheng1
        27
    livelyyongheng1  
       1 天前
    那必然是 paddle
    NizumaEiji
        28
    NizumaEiji  
       1 天前
    paddle ocr 吧 日常用比较稳
    没必要上多模态的 llm 吧
    AiBoy
        29
    AiBoy  
       1 天前
    识别中文手写最强的是谁呢?
    superPONY
        30
    superPONY  
       1 天前
    巧了,最近在做的项目刚好测了几个多模态/OCR 模型,你可以参考我的项目 readme 文档,https://github.com/RAGDock/RAGDock 。有用的的话求个 Star 哈哈哈
    andlp
        31
    andlp  
       1 天前
    yolo 效果比大模型好
    定位订单的区域,针对这个字体识别,然后只识别 0-9 这 10 个数字 效果比什么大模型都要好的多
    berry10086
        32
    berry10086  
       1 天前   ❤️ 1
    easyocr 也可以
    miaomiao888
        33
    miaomiao888  
       1 天前
    @AiBoy 合合 OCR
    SanjinGG
        34
    SanjinGG  
       21 小时 26 分钟前
    rapidocr
    Selenium39
        35
    Selenium39  
       21 小时 14 分钟前
    llmocr
    latelan
        36
    latelan  
       21 小时 3 分钟前
    @defunct9 这个跑起来吃力么,小龙虾用着咋样啊
    fork3rt
        38
    fork3rt  
       20 小时 30 分钟前
    Paddle OCR VL 即可
    ukoudai
        39
    ukoudai  
       20 小时 10 分钟前
    你直接使用 macos,自带 视觉识别的 ,速度还贼快
    lyhiving
        40
    lyhiving  
       18 小时 12 分钟前
    识别中文手写最强的是谁呢?
    defunct9
        41
    defunct9  
       17 小时 19 分钟前
    @latelan 魔怔了吧,龙虾已经过时了。
    fenildf
        42
    fenildf  
       13 小时 49 分钟前
    @whitewatercn 这种在 windows 下有法部署吗?
    fenildf
        43
    fenildf  
       13 小时 25 分钟前
    @superPONY 已 star 。看起来挺好。想自己试试,发现缺指导文件 BUILD_GUIDE.md
    EchoPrince
        44
    EchoPrince  
    OP
       12 小时 26 分钟前
    @berry10086 今天简单试了下,手机截图准确率很高了,但是相机拍摄的照片有时候订单号中间会缺失 3-4 位数字
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1081 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 105ms · UTC 22:49 · PVG 06:49 · LAX 15:49 · JFK 18:49
    ♥ Do have faith in what you're doing.