*掌握机器学习常用的算法如逻辑回归,神经网络,决策树,随机森林,knn,svm,kmeans等以及原理*掌握对数据进行feature selection,combination等feature engineering的一般方法 *掌握常见数据结构和算法,用java,python 独立完成核心算法架构和实现*掌握Oracle,MySql,Mongodb等数据库使用*掌握使用hadoop,Spark相关技术,如map-reduce,hive、hbase等以及redis,kafka等*掌握python常用的框架,并开发部署服务,框架比如Flask,Django等,web服务如tomcat,nginx等*掌握多进程多线程编程,并利用的实际优化效率项目:项目名称:用户信用模型评估系统,从编码抽取对模型可能有用的特征,合成样本,对样本进行Exploratory Data Analysis,对缺失数据,异常点数据进行处理,合成新的特征,用卡方检验,信息增益,相关系数等方法进行特征选择,采用GBDT+LR,svm,随机森林三种算法,用roc,auc,选出最优模型部署到生产环境中去
0 2018-04-14 12:59
统计分析用户关键浏览行为特征,包括用户的孵化过程(用HMM模型),例如打算买车,详细了解,确定购车等过程
Note:
内部系统,只有截图,数据涉及敏感信息,只能是这个清晰度
0 2018-04-14 12:56
从海量数据中挖掘潜在买车客户,比如用户何时买车,买什么样的车系,在哪买车,以接口的形式输出一系列标签
Note:做后台服务的,没有可以提供的界面和作品链接
0 2018-04-14 12:55