人-物体交互检测系统模型_开源项目-程序员客栈

语言技术
Torch开源地址
https://github.com/cjw2021/SOV-STG授权协议
Apache许可

项目背景与问题
当前基于Transformer的人物-物体交互（HOI）检测方法通常依赖DETR目标检测和多模态视觉语言模型（VLM）的先验知识，虽然精度高，但存在训练时间长、优化复杂等问题，特别是在同时预测物体和交互时，query表示模糊、动词和HOI标签之间存在语义差距。

我们的方法：SOV-STG-VLA
1. 本项目提出了一个新方法 SOV-STG-VLA，由三部分组成：

2. SOV解码器：将主语-宾语-动词解耦建模，独立处理目标检测和动词识别，使用创新的交互区域表示提升表达清晰度。

3. STG去噪策略：引入“特定目标引导”的去噪机制，利用真实标签信息优化query嵌入训练过程，提升训练效果与推理鲁棒性。

4. VLA视觉语言顾问：设计一个融合模块，引入VLM中的视觉知识，与交互区域信息融合，同时通过动词与HOI标签之间的“桥接模块”提升交互理解能力。

实验结果与贡献
本方法在准确率上达到了SOTA（当前最优），同时只用了原有方法六分之一的训练轮数即可收敛，显著提高了训练效率，为HOI任务提供了更高效、更易优化的新思路。

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

人-物体交互检测系统模型开源项目

技术信息

功能介绍

示例图片

重点城市程序员兼职推荐

重点岗位程序员兼职推荐