人-物体交互检测系统模型开源项目

我要开发同款
云的代码之家2025年04月19日
181阅读

技术信息

语言技术
Torch
开源地址
https://github.com/cjw2021/SOV-STG
授权协议
Apache许可

功能介绍

项目背景与问题
当前基于Transformer的人物-物体交互(HOI)检测方法通常依赖DETR目标检测和多模态视觉语言模型(VLM)的先验知识,虽然精度高,但存在训练时间长、优化复杂等问题,特别是在同时预测物体和交互时,query表示模糊、动词和HOI标签之间存在语义差距。

我们的方法:SOV-STG-VLA
1. 本项目提出了一个新方法 SOV-STG-VLA,由三部分组成:

2. SOV解码器:将主语-宾语-动词解耦建模,独立处理目标检测和动词识别,使用创新的交互区域表示提升表达清晰度。

3. STG去噪策略:引入“特定目标引导”的去噪机制,利用真实标签信息优化query嵌入训练过程,提升训练效果与推理鲁棒性。

4. VLA视觉语言顾问:设计一个融合模块,引入VLM中的视觉知识,与交互区域信息融合,同时通过动词与HOI标签之间的“桥接模块”提升交互理解能力。

实验结果与贡献
本方法在准确率上达到了SOTA(当前最优),同时只用了原有方法六分之一的训练轮数即可收敛,显著提高了训练效率,为HOI任务提供了更高效、更易优化的新思路。

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论