面向心理学研究、人机交互优化及智能教育评估领域,针对传统情绪与行为分析依赖单一模态、易受环境干扰、缺乏多维度关联的痛点,构建融合面部表情、语音声学、肢体动作、眼动轨迹的多模态智能分析平台。该系统可应用于心理咨询中的情绪状态量化评估、人机交互中的用户意图精准识别、教育场景中的学习专注度动态监测等场景,通过跨模态数据融合与深度关联分析,为行为科学研究与智能应用提供可量化、可追溯的技术支撑。
点击空白处退出提示
面向心理学研究、人机交互优化及智能教育评估领域,针对传统情绪与行为分析依赖单一模态、易受环境干扰、缺乏多维度关联的痛点,构建融合面部表情、语音声学、肢体动作、眼动轨迹的多模态智能分析平台。该系统可应用于心理咨询中的情绪状态量化评估、人机交互中的用户意图精准识别、教育场景中的学习专注度动态监测等场景,通过跨模态数据融合与深度关联分析,为行为科学研究与智能应用提供可量化、可追溯的技术支撑。
面部情绪分析:基于高精度面部关键点检测与微表情识别算法,实时捕捉眉毛、眼睑、嘴角等43个面部动作单元的细微变化,结合深度学习模型(如ResNet+注意力机制)对快乐、悲伤、愤怒、恐惧、惊讶、厌恶、中性等7类基础情绪进行置信度评分,支持情绪强度时序曲线生成与关键情绪片段标记。
语音情绪分析:通过梅尔频谱图特征提取与CNN-RNN混合模型,分析语音中的语调起伏、语速变化、能量分布、停顿频率等12维声学特征,识别语音中隐含的焦虑、平静、兴奋、抵触等情绪状态,支持方言与噪声环境下的鲁棒性分析。
动作行为分析:采用YOLOv8目标检测与OpenPose姿态估计算法,实时追踪人体18个关键骨骼点的运动轨迹,识别肢体动作模式(如频繁搓手、身体前倾、头部低垂等),结合时序动作定位算法,量化分析动作的紧张度、活跃度与情绪关联性。
眼动追踪分析:集成轻量化眼动检测模型,实时捕捉瞳孔位置、注视点轨迹、眨眼频率、注视时长等指标,生成眼动热力图与兴趣区域(AOI)停留时长统计,辅助判断注意力分配、认知负荷与情绪唤醒程度(如焦虑时眨眼频率升高、专注时注视点集中)。
人物标记与多目标追踪:支持多人场景下的个体身份标记(如通过人脸特征编码绑定用户ID),结合DeepSORT多目标追踪算法,实现跨摄像头、跨时段的行为数据关联,确保不同模态数据与特定个体的精准匹配。
实验设计与数据可视化:提供可视化实验配置界面,支持自定义情绪诱发范式(如视频片段播放、任务指令下达)、多模态数据同步采集(时间戳对齐)、数据导出(CSV/JSON格式);内置可视化分析面板,支持情绪强度热力图、动作轨迹叠加图、眼动注视点时序图等跨模态数据的关联展示,辅助研究人员快速定位行为模式与情绪波动的关联规律。
技术架构:采用“端-边-云”协同架构,前端通过普通RGB摄像头+麦克风阵列实现多模态数据采集,边缘端部署轻量化模型(如MobileNetV3+TensorRT加速)实现实时特征提取,云端基于PyTorch框架搭建多模态融合网络(Cross-Attention机制),实现跨模态特征的加权融合与情绪状态分类。
核心创新:
多模态对齐与融合:提出基于时间戳的跨模态数据同步算法,解决视频帧(30fps)、音频片段(16kHz)、眼动数据(120Hz)的时序对齐问题;设计Cross-Attention融合模块,动态分配面部、语音、动作、眼动特征的权重(如情绪激动时语音权重提升、专注时眼动权重提升),融合后情绪识别准确率达92.3%,较单模态提升18%。
轻量化部署:通过模型蒸馏与量化技术,将多模态融合模型体积压缩至120MB,支持在边缘设备(如Jetson Nano)上实现25fps的实时分析,满足现场实验的低延迟需求。
隐私保护设计:采用联邦学习框架,原始数据不出本地,仅上传加密后的特征向量至云端进行模型迭代,符合心理学研究的伦理规范。
项目成果:系统与3所高校心理学实验室合作,完成2000+例情绪诱发实验,构建包含5万+样本的多模态行为数据库;相关技术申请发明专利2项,发表CCF-B类会议论文1篇,在“青少年情绪障碍早期筛查”项目中实现94.7%的筛查准确率,获省级科技创新大赛一等奖。




评论