基于改进YOLOV11的手语识别_系统开发案例-程序员客栈

技术信息

语言技术
Caffe、Apache、Mahout、Torch、Neuroph系统类型
Windows行业分类
人工智能、机器深度学习

作品详情

行业场景

世界卫生组织在2021年的统计数据种显示，全球有超过4亿人需要针对听力障碍的健康服务，其中儿童人数占3400万左右。据估计，到2050年将有超过7亿人有听力障碍。如今我国存在听障人士约2780万人，聋哑相关疾病使这些人在日常生活存在着巨大交流障碍。为了应对这些问题，国家部门在“十三五”规划中提出了无障碍交流环境建设方案。并且在“十四五”规划中进一步要求全面普及无障碍交流设施[2]。近年来学术届在计算机视觉、目标检测领域也有广泛研究和许多突破。以此为基础，研究手语识别系统既能解决听障人士与外界交流和获取信息的需求，又是响应国家政策，还能助力计算机视觉、目标检测领域完成技术突破，可谓一举三得。

功能介绍

本文设计与实现了一种改进YOLOv11的手语识别系统，首先要解决的就是手语识别的便捷性问题，以往的研究中，往往对设备要求较高，很难普及到日常生活；其次要解决准实时性问题，我们需要在有限的计算资源下完成准确及时的手语识别；再次要提高模型的鲁棒性，使得模型在复杂的环境下也能进行精准快速的特征提取，以满足实际应用场景的需求。

项目实现

用更轻量的网络模型MobileNetV4替换YOLOv11模型的骨干网络；在模型颈部引入ECA注意力机制；在C3k2模块中加入iAFF迭代注意力特征融合模块；最终本文基于改进的模型用tkinter和Pillow设计了一个手语识别系统的操作界面，实现了对图片中的手语快速识别和对手语实时检测两个功能。
通过以上改进模型取得了显著效果。经过测试，原模型模型在手语识别验证集中检测平均精度均值（mAP）达到了0.952，召回率（Recall）为0.97，F1（F1-score）分数在置信度为0.677时达到0.90。改进后的模型在手语识别数据集中检测平均精度均值达到了0.970，比原模型高了0.018%，召回率为0.98，比原模型高了0.01%，F1分数在置信度为0.311时达到0.91，比原模型在更低的置信度达到了更高。除此之外，改进后的模型在实时检测过程中在背景环境相对复杂的情况下比原模型识别效果更好。