蛋白质识别_系统开发案例-程序员客栈

技术信息

作品详情

行业场景

该项目属于生物信息学与蛋白质功能预测场景，目标是利用机器学习从唾液蛋白氨基酸序列中识别分泌蛋白。它可服务于疾病标志物发现、口腔疾病诊断、药物靶点筛选等生物医学研究，替代部分成本高、周期长的湿实验筛查。

功能介绍

项目输入为蛋白质序列 CSV，核心任务是将蛋白分类为分泌蛋白 `S` 或非分泌蛋白 `N`。数据按 5 折划分，训练集和验证集带标签，测试集无标签。现有输出文件给出了 200 条测试蛋白的预测结果，其中预测为 `S` 的有 107 条，`N` 的有 93 条。

项目实现

核心代码在 [protein_classifier.py](/Users/fangqianyu/Desktop/1.%20蛋白类别识别/protein_classifier.py) 中。实现流程是：清洗序列，提取氨基酸组成、二肽组成、序列长度和理化性质分组特征，共约 427 维；再用 `SelectKBest` 选出 150 个关键特征，并做标准化。模型层面使用 RandomForest 和 XGBoost，每折通过 Optuna 进行 60 次超参数搜索，并用内部 3 折交叉验证优化 AUC，最后在每折选择验证 AUC 更高的模型。实验报告显示最终方案 v3 达到平均 F1 约 80.83%、AUC 约 86.38%。PPT 主要介绍 BLAST、传统机器学习、深度学习和表示学习等蛋白分类方法；`hatch-pet-runs` 是与项目主题相关的 Helix 吉祥物生成素材，不是分类模型核心代码。