在各种行业,可以挖掘行业相关数据,进行数据处理与分析,得出可视化的结果,便于直观感受数据的分布与发展,也能通过各种模型进行预测行业的发展状况。
点击空白处退出提示
在各种行业,可以挖掘行业相关数据,进行数据处理与分析,得出可视化的结果,便于直观感受数据的分布与发展,也能通过各种模型进行预测行业的发展状况。
逻辑回归:线性分类模型,输出概率,可解释性强。随机森林:集成学习,通过多棵决策树投票,抗过拟合,能给出特征重要性。支持向量机:通过核函数将数据映射到高维空间,找到最优分类超平面,适合小样本、高维数据。KNN:基于距离度量,投票决定类别,简单直观,适合小规模、类别边界明显的场景。线性回归:直观感受线性数据的发展趋势。以上模型可应用于各种行业数据。
针对多种数据集进行分类实验,比较不同机器学习模型的泛化能力。
主要工作:基于pandas等包对数据进行清洗,采用特征工程(标准化、PCA降维)、超参数优化、模型评估验证(交叉验证、F1-score、ROC曲线、热力图),并分析模型优点,提升模型各项指标(准确率,精确率,召回率)。















评论