低成本识图方案？

目前正在预研一个低成本的识图方案，场景是家用安防摄像机的。

目前调研了有两个方向

一个是以 yolo 、aws rekonition 为代表的传统的 CNN 识图方案，
其中 yolo 面临的问题是现成的模型有标签不足够覆盖场景，要自己训练心里没底
直接用 aws rekonition 的成本很高，谈了折扣算下来也还是很高

传统方案有另一个弊端就是对于抽象的"词"无法理解,比如想要对"危险情况"做识别，只能分解到具体的事物，比如火焰、枪支、刀具等。

另一个是走大模型的识图方向

我纯后端开发，计算机视觉和大模型方面是个小白
站内的大佬有在这方面有经验的吗，有什么经验可以分享一下，谢谢你~

YOLO 自己训练

你这个方向不是图像识别和事态感知的内容吗，军工和自动驾驶行业的人能帮你判断一下吧。

我看 YOLO 很多的应用场景在 B 端，聚焦的场景很单一，我们这个是家用的场景，用户可能放在卧室、客厅、户外都有可能，而且场景里会出现的物品和事件太多了，感觉很难弄一个通用的 YOLO 模型出来。

事态感知？没见过这个名词，我去查查看。我们是做 C 端的哈，就是最常见的家用安防摄像机。

但是 api 不错,真的是实际场景图吗?
我用 grok chat,前几张好识别的,确实可以回答出来。
但是不好识别的,一样 gg 。

yolo:
安防数据集,算是挺常见的。
去网上找训练好的模型,让 ai 帮你测试。
数据集也行,自己训练下。

docs.ultralytics.com/zh/guides/security-alarm-system/
如果你找好了模型,自己都不用写什么代码,官方都有示例。

安防一般不是用目标识别吧，一般是移动侦测，姿态分析（摔倒）

最近不是有个 FastVLM 吗，很快运行条件也低

不对，是叫 smolvlm

＃3 那就弄 N 个出来

yolo 的 coco 集就有多达 80 种物品识别。
而且属于预训练模型，训练成本很低的。

移动侦测老古董了，一点风吹草动给你告警。

那异常模型呢 patchcore 之类的，用大量正例训练，检测反例

自己训练最灵活，或者找一个别人的模型，自己调参

＃5 是实际场景，从网上找出来的。给你看一个示例。

gemini api 很便宜效果也不错

安防场景不是很适用，里面很多的衣服鞋子、运动物品、家庭电器什么的。

收藏一下期待小而美的解决方案

有这么想过，但是怕弄出来效果也不好。

＃19 玩 YOLO 不要想着一劳永逸，一开始效果注定不好，但是你要给一个“疑似”报警并收集下来，继续训。迭代久了就值钱了

合速度