项目背景与问题
当前基于Transformer的人物-物体交互(HOI)检测方法通常依赖DETR目标检测和多模态视觉语言模型(VLM)的先验知识,虽然精度高,但存在训练时间长、优化复杂等问题,特别是在同时预测物体和交互时,query表示模糊、动词和HOI标签之间存在语义差距。
我们的方法:SOV-STG-VLA
1. 本项目提出了一个新方法 SOV-STG-VLA,由三部分组成:
2. SOV解码器:将主语-宾语-动词解耦建模,独立处理目标检测和动词识别,使用创新的交互区域表示提升表达清晰度。
3. STG去噪策略:引入“特定目标引导”的去噪机制,利用真实标签信息优化query嵌入训练过程,提升训练效果与推理鲁棒性。
4. VLA视觉语言顾问:设计一个融合模块,引入VLM中的视觉知识,与交互区域信息融合,同时通过动词与HOI标签之间的“桥接模块”提升交互理解能力。
实验结果与贡献
本方法在准确率上达到了SOTA(当前最优),同时只用了原有方法六分之一的训练轮数即可收敛,显著提高了训练效率,为HOI任务提供了更高效、更易优化的新思路。
点击空白处退出提示
评论