受前段时间看过的一篇帖子启发,同时用 ocr 和视觉大模型进行识别,结果相同的才输出,输出质量感觉会非常高,缺陷是可能存在没输出的情况

这样的策略本质上是通过降低识别率来提高正确率
按我的理解一定是没有只使用 ocr 来的好

主要是有些业务场景,人家的要求是要么不识别,要么就要识别准,所以我才会有了这个方案

vlm 还真没有 ocr 好用,而且 vlm 如果能正确识别出来,ocr 一定可以,但 ocr 能识别的,vlm 还真不一定。主要看业务场景吧

对,主要就是如果单纯只用 ocr 识别,光看置信度不能保证出来的一定准,这种做法相当于用 VLM 加了一层校验

在 GitHub 上看到个挺有意思的开源解决方案 iOS OCR Server ,它把 iPhone 手机变成强大的本地 OCR 服务器。

基于苹果的 Vision Framework 实现高精度文字识别,支持多语言自动检测,只需在同一网络下通过 IP 地址访问即可使用。

GitHub: github.com/riddleling/iOS-OCR-Server

这本来就是通过提高 frr 来降低的 far ,“缺陷”当然就是 frr 高了。far/frrd 的平衡,一般看具体场景。

是的,主要还是预设业务场景属于要么不识别,要么尽量百分百识别的那种。所以想请各位大佬看看这个方案是否存在大的问题

VLM 的問題主要在 OCR 精度問題。
我是把 OCR 文本和圖像一併送入 VLM 。

那麼就可以完美降低 VLM 的 OCR 錯誤問題。

前两天才看到的逆天例子 www.zhihu.com/question/302170944/answer/1952029733140268672, 日常里 OCR+VLM 应该是没问题, 恶意攻击那可真是防不胜防
对于清晰文字, 普通 OCR 已经很能打了, 手写识别这种上 VLM 可以解决部分, 但是两个一起问题就是 VLM 的准确性了, 差一个字这种你就舍弃会被认为阈值过高

识别模糊粘连的号码 ocr 不如视觉模型

对,因为主要是账单的数字识别,文本上不会有太多

忘了哪里看到的,似乎可以先放大再进行 OCR ,这样识别准确率就会提高

阿里已经有了
我前些阵子测试了一下
效果只能说一般

一般主要是体现在出现了大量的 False Rejection 吗,其实这个方案只有能保证识别出来的没问题,我觉得就 ok 了

但这样做计算开销比较大

我们使用了 QwenVL2.5 7B 在资质图片场景下做了大量的结构化信息提取 ,总的效果还是比 OCR 要好的,但是存在一定幻觉 比如信息自动补全,和联想的情况。如果图片重点字段出现的位置类似 可以在对话的时候 提供左上和右下两个点位的坐标 来提示模型提取重点区域 会优化提取效果。至于 ocr 信息辅助模型进行提取,也是已经验证过的好办法,但是模型结果用来和 ocr 做对比 我觉得只会在一些对准确容忍度非常低的场景 如金融票据才会采用。但是金融票据往往是标准票据 ocr 已经很能打了,非标场景才是 VL 模型的发挥阵地

感谢分享,vlm 这块你们有试过 InternVL 或者 glmVL 吗,看最近的分数都挺高但是不知道实际能力和 qwen 比如何

既然是代码+代码实现 100%,那为什么不一步到位?既然能够一步到位,那么早就该有 100%的 OCR 。

还有一个缺陷吧,速度下去了

#18 抱歉 没有 我们是阿里系的 优先用 qwen

这不就是多源对比纠错吗?

完整方案应该是这样的,3 个源 ocr 对比,如果有 2 个源一样,就直接取用,3 个全都不一样,丢给大模型或人工纠错。

纠错结果丢给 ocr 模型二次训练

我遇到你这个问题,我的做法是 OCR 出来后丢给 llm 大模型去修复

直接 ocr 丢给 LLM 修复呗。 你这样一致的能有多少,准确率上去了不得看看能召回多少吗?
你这都没有多少是输出一致的吧

不可能,机器学习网络参数是固定的,无论你什么尺寸,前向传播前都会 resize 成固定尺寸

你觉得识别率高了仅仅是插针拉伸裁剪之类的算法导致识别结果不一样了而已,从算法原理上放大不可能影响识别率