基于查询更新分析的图像分类 GWAD 黑盒对抗攻击检测与防御系统

技术信息

语言技术
Python、openCV、Torch、前端系统类型
Web、算法模型行业分类
人工智能、机器深度学习

作品详情

行业场景

本项目面向图像分类模型在黑盒查询场景下的安全防护问题。攻击者无法获取模型结构和梯度，只能通过连续提交图像并观察模型输出结果来构造对抗样本，容易对分类系统造成误判风险。系统通过分析连续查询图像之间的更新轨迹，提取 DS 和 HoDS 特征，识别良性查询流与 HSJA、NES、SimBA、Square 等黑盒攻击查询流之间的差异，并以可视化方式展示检测、防御和对比结果，适用于人工智能安全实验、对抗样本检测研究、模型鲁棒性验证和教学演示场景。

功能介绍

系统实现了一个完整的黑盒对抗攻击检测与防御展示平台。用户可以在前端选择 CIFAR-10 + ResNet-18 或 Tiny ImageNet + EfficientNet-B0 实验组合，配置黑盒攻击方法、防御方法、查询场景、查询预算、样本数量和检测阈值。系统支持 HSJA、NES、SimBA、BA、Sign-Opt、Sign-Flip、Square、OARS 等 8 种黑盒攻击，以及 GWAD、GWAD+、Blacklight、PIHA 等 4 种防御方法。前端提供单次实验结果、原图与对抗样本对比、首次检测查询、防御对比、攻击对比、运行开销、泛化对比、DS/HoDS 特征分析、GWAD+ Screener 和 HoDS 混淆矩阵等页面，能够展示检测率、误报率、攻击成功率、首次告警查询、查询总数和拦截查询数等指标。

项目实现

本人主要负责系统整体设计、核心算法实现、实验流程封装和可视化前端开发。项目后端使用 Python 和 PyTorch 完成图像分类模型加载、黑盒攻击执行、查询轨迹采集和防御检测；使用 ResNet-18、EfficientNet-B0 作为被攻击分类模型，并训练 9 类 HoDS/DeltaNet-ANN 查询轨迹分类器识别 benign、HSJA、NES、SimBA、BA、Sign-Opt、Sign-Flip、Square、OARS 等查询类型。系统通过 ExperimentConfig 和 run_experiment 统一管理数据加载、模型推理、攻击生成、防御检测、指标统计和结果保存。前端采用 Streamlit 构建交互式实验页面，结合 Pandas、Plotly、Matplotlib 展示指标图表、DS 曲线、HoDS 直方图和对抗样本图像。项目实现难点在于真实黑盒攻击查询流采集、HoDS 特征构建、检测阈值校准、多种攻击/防御接口统一，以及保证前端实验结果可复现、可解释、可对比。