


个人介绍
算法:了解常见的机器学习算法(SVM,逻辑回归, XGboost, DeepCrossing, wide&Deep, DeepFM, NFM, DCN, AFM 等)
英语等级 CET-6,拥有良好的英文文献阅读能力
项目:作为项目负责人负责过3个项目,涉及领域为NLP和CV。NLP包括文本的实体和关系提取,以及自然语言处理的实战项目开发;CV包括针对企业开发出已落地的图片,视频人脸识别项目;其余的对图神经网络稍有研究
教育经历
2016-09-01 - 2020-06-01西安电子科技大学智能科学与技术本科
本科阶段获得过部分数模奖项(奖项可查),包括 国际大学生数学建模竞赛一等奖 2018.02 - 2018.03 全国大学生数学建模竞赛省一等奖 两次 2017.02 - 2018.01 数学建模亚太赛二等奖 2017.11 - 2017.12 其余为课程,均分保持80+
技能

自然语言处理实战书编撰( 商汤科技合作项目) 2020.10 - 2021.06 项目介绍:内容包括NLP常用工具,Pandas,贝叶斯,隐马尔可夫,语言模型和词向量,实战项目:中文情感分析,写诗机器人,机器翻译 主要贡献:常见语言模型和词向量的书写,包括NNLM,GloVe,ELMo,word2vec,CBOW,Skip-Gram,Hierarchical Softmax, Negative Sampling 以及Gensim库对词向量的训练和使用;中文情感分析的实战项目,包括Text-CNN,基于LSTM的RNN以及BERT预训练模型来实现中文情感分析并进行评估;最后对所有章节的内容进行审核和整合


文本实体及关系提取(电信十所合作项目) 2021.01 - 2021.12 项目负责人 项目介绍:对特定类型文本进行实体及关系提取,同时满足实体消歧和指代消解,数据量亿/日,并上线AI云平台 主要贡献:1. 使用BRAT标注数据集;2. 实体提取:采用Bilstm-CRF模型,加入负采样解决漏标错标问题;修改loss权重以解决数据分布不均问题等;3. 关系提取:采用Bilstm-Att模型,对序列加MASK掩码以解决模型太敏感问题;输入信息添加实体类别以优化分类结果;加入全量负样本以优化提取效果;4. 通过docker部署线上;5. 编写开发阶段所有必要文档 项目成果: 实体及关系提取F1达到0.8以上,同时满足指代消解和实体消歧,达到P40单卡3500条/s,实际效果达到预期


天池大赛新闻推荐 - rank 32 / 8266 2022.01 - 2022.02 比赛简介:以新闻APP的新闻推荐为背景,要求根据用户的历史点击新闻的数据信息预测用户的下一次点击 解决方案:设计三路召回策略:1. ItemCF召回,将新闻的点击次序纳入考虑计算相似度,召回时考虑到新闻强热点性加入距离衰减策略;2. YoutubeDNN召回,用RNN提取序列embedding作为部分输入,还有带权序列id和其他基本特征作为补充输入;3. word2vec召回,把用户对新闻的点击序列当作句子来处理。在特征工程后采用LightGBM二分类模型对召回内容合并排序,HI和MRR显著提高
