低成本识图方案?
目前正在预研一个低成本的识图方案,场景是家用安防摄像机的。
目前调研了有两个方向
一个是以 yolo 、aws rekonition 为代表的传统的 CNN 识图方案,
其中 yolo 面临的问题是现成的模型有标签不足够覆盖场景,要自己训练心里没底
直接用 aws rekonition 的成本很高,谈了折扣算下来也还是很高
传统方案有另一个弊端就是对于抽象的"词"无法理解,比如想要对"危险情况"做识别,只能分解到具体的事物,比如火焰、枪支、刀具等。
另一个是走大模型的识图方向
- 自己部署开源模型,Qwen2.5 VL 系列和 Janus-Pro ,7B 和 32B 都试了,感觉效果不佳
- 调 Api ,试了几家,发现 aws nova 在价格和效果上都很不错
我纯后端开发,计算机视觉和大模型方面是个小白
站内的大佬有在这方面有经验的吗,有什么经验可以分享一下,谢谢你~
YOLO 自己训练
你这个方向不是图像识别和事态感知的内容吗,军工和自动驾驶行业的人能帮你判断一下吧。
我看 YOLO 很多的应用场景在 B 端,聚焦的场景很单一,我们这个是家用的场景,用户可能放在卧室、客厅、户外都有可能,而且场景里会出现的物品和事件太多了,感觉很难弄一个通用的 YOLO 模型出来。
事态感知?没见过这个名词,我去查查看。我们是做 C 端的哈,就是最常见的家用安防摄像机。
但是 api 不错,真的是实际场景图吗?
我用 grok chat,前几张好识别的,确实可以回答出来。
但是不好识别的,一样 gg 。
yolo:
安防数据集,算是挺常见的。
去网上找训练好的模型,让 ai 帮你测试。
数据集也行,自己训练下。
docs.ultralytics.com/zh/guides/security-alarm-system/
如果你找好了模型,自己都不用写什么代码,官方都有示例。
安防一般不是用目标识别吧, 一般是移动侦测,姿态分析(摔倒)
最近不是有个 FastVLM 吗,很快运行条件也低
不对,是叫 smolvlm
#3 那就弄 N 个出来
yolo 的 coco 集就有多达 80 种物品识别。
而且属于预训练模型,训练成本很低的。
移动侦测老古董了,一点风吹草动给你告警。
那异常模型呢 patchcore 之类的,用大量正例训练,检测反例
自己训练最灵活,或者找一个别人的模型,自己调参
#5 是实际场景,从网上找出来的。给你看一个示例。
gemini api 很便宜效果也不错
安防场景不是很适用,里面很多的衣服鞋子、运动物品、家庭电器什么的。
收藏一下 期待 小而美的解决方案
有这么想过,但是怕弄出来效果也不好。
#19 玩 YOLO 不要想着一劳永逸,一开始效果注定不好,但是你要给一个“疑似”报警并收集下来,继续训。迭代久了就值钱了
Linux 是抢占式,应该不行的吧 据说应该用实时系统 那是否有某种类似于 Linux 的开源操作系统,成为业界标准 请高人指点一下 本人前端,突然对自动驾驶感兴趣,求指教 …
需求背景:想做个 App 方便我妈记录血压、心跳,老人家懂基础拍照,但打字这些玩不顺溜。因此想着让她每次量完血压后拍个照片,App 自动识别血压和心跳计数,上传到服务端。1.尝…
手贱点了全盘加密,提示过程中不能退出否则数据丢失,然后我干等了两点小时发现卡在界面无变化左上角还是开始加密的那刻,痛下决心强制重启发现可以正常开机,有遇到相同情况的吗?我的手机…