该项目属于生物信息学与蛋白质功能预测场景,目标是利用机器学习从唾液蛋白氨基酸序列中识别分泌蛋白。它可服务于疾病标志物发现、口腔疾病诊断、药物靶点筛选等生物医学研究,替代部分成本高、周期长的湿实验筛查。
点击空白处退出提示
该项目属于生物信息学与蛋白质功能预测场景,目标是利用机器学习从唾液蛋白氨基酸序列中识别分泌蛋白。它可服务于疾病标志物发现、口腔疾病诊断、药物靶点筛选等生物医学研究,替代部分成本高、周期长的湿实验筛查。
项目输入为蛋白质序列 CSV,核心任务是将蛋白分类为分泌蛋白 `S` 或非分泌蛋白 `N`。数据按 5 折划分,训练集和验证集带标签,测试集无标签。现有输出文件给出了 200 条测试蛋白的预测结果,其中预测为 `S` 的有 107 条,`N` 的有 93 条。
核心代码在 [protein_classifier.py](/Users/fangqianyu/Desktop/1.%20蛋白类别识别/protein_classifier.py) 中。实现流程是:清洗序列,提取氨基酸组成、二肽组成、序列长度和理化性质分组特征,共约 427 维;再用 `SelectKBest` 选出 150 个关键特征,并做标准化。模型层面使用 RandomForest 和 XGBoost,每折通过 Optuna 进行 60 次超参数搜索,并用内部 3 折交叉验证优化 AUC,最后在每折选择验证 AUC 更高的模型。实验报告显示最终方案 v3 达到平均 F1 约 80.83%、AUC 约 86.38%。PPT 主要介绍 BLAST、传统机器学习、深度学习和表示学习等蛋白分类方法;`hatch-pet-runs` 是与项目主题相关的 Helix 吉祥物生成素材,不是分类模型核心代码。



评论