• 请不要在回答技术问题时复制粘贴 AI 生成的内容
niselover
V2EX  ›  程序员

批量 ocr 扫描件,格式特殊,求思路

  •  
  •   niselover · Sep 30, 2022 · 3066 views
    This topic created in 1346 days ago, the information mentioned may be changed or developed.

    扫描件格式特殊,一般的 ocr api 都不能满足,需要自定义识别, 还需要批量化处理的能力, 求教怎么思路去实现?

    vx: d2FuZ3NhbnhpYQ==

    11 replies    2022-10-02 12:57:46 +08:00
    paopjian
        1
    paopjian  
       Sep 30, 2022 via Android
    扫描件格式再特殊,也能变成图片吧,难道是加密文件?
    pony2335
        2
    pony2335  
       Sep 30, 2022
    感觉除了格式转换,没其他思路
    jifengg
        3
    jifengg  
       Sep 30, 2022
    楼主“格式特殊”指的是文字排版特殊,以及你希望 ocr 之后能够获得指定区域的内容吧。类似身份证 ocr 。
    百度云我知道有一个,可以自定义 ocr 模板的,楼主可以看看。其他云按理应该也是有的。
    kujio
        4
    kujio  
       Sep 30, 2022
    百度云不行,推荐阿里云,还有楼主是什么特殊格式,我公司之前刚做过扫描随货单自动入库的,单据都是乱七八糟格式的,现在识别率还行。
    dreasky
        5
    dreasky  
       Sep 30, 2022
    百度开源 paddleOCR
    joApioVVx4M4X6Rf
        6
    joApioVVx4M4X6Rf  
       Sep 30, 2022
    最好整个图片模板,不然不知道有多复杂
    niselover
        7
    niselover  
    OP
       Sep 30, 2022
    @paopjian
    @jifengg
    对对 文字排版特殊
    paciychen85
        8
    paciychen85  
       Sep 30, 2022
    最近也有跟 OP 相似的需求,表格截图类型的图片,有没有好的 ocr 软件?最好支持导出成 excel
    0bSer7er
        9
    0bSer7er  
       Sep 30, 2022
    最近正好在看 OCR ,阿里云有自定义排版的 api ,公司注册有免费额度,可以看一下
    encro
        10
    encro  
       Sep 30, 2022
    @kujio
    @0bSer7er

    @dreasky

    作为这方面的较深度用户,确实百度不如阿里,特别是这两年,百度算法根本就是开源实现,效果都一般。
    阿里自己的算法不公开,效果不错,
    而且比直接用阿里也比直接用百度更便宜很多,量不是特别多,比自己部署更便宜。
    dreasky
        11
    dreasky  
       Oct 2, 2022
    @encro 场景不一样 有些敏感扫描件有保密需求 只能单机
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2914 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 42ms · UTC 12:25 · PVG 20:25 · LAX 05:25 · JFK 08:25
    ♥ Do have faith in what you're doing.