个人介绍
2013.12-至今 深圳市宜搜科技北京分公司
app数据流项目
职责:主要负责数据的抓取、存储、后续的去重、优选、分类等工作,以保证优质数据得到第一时间的展现。并提供app下载、app图片的线上服务。维护hbase集群并充分利用集群的性能优势。
成绩:
1)爬虫方面:基于kafka构建分布式网络爬虫具有良好的扩展性和容灾、容错能力。
2)算法方面:基于LR训练的分类模型,分类评测准确率达到100%。
3)数据方面:软件覆盖率100%,游戏覆盖率90%,为RS、客户端接口、推送系统提供稳定可靠的数据支撑。
纠错服务
职责:主要负责纠错新数据流的接入、日志分析、高频词提取、索引建立和部分策略的优化。
成绩:1)优化热词纠错策略,正确率从20%提升到91%。
2)优化原有MR作业,采用阶段合并策略,使运行时间缩减为原有1/3,节约集群计算资源。
热词服务
职责:开发热词爬虫,将原有人工维护的热词改为爬虫自动化更新,实现定时抓取、定时发布,支持人工干预。
提示词服务
职责:基于lucene构建app提示词服务,提供稳定高效的检索,支持人工干预
用户模型系统
职责:基于lda主题模型的数据分类。基于回归思想,实现利用用户点击、搜索、浏览等行为构建用户模型。对用户榜单重新排序和个性化推荐。
广告服务
职责:重构app广告服务系统,服务端和客户端采用长链接机制,以netty高性能异步nio框架作为通讯组建,提高服务端响应效率,并支持多种容错策略
工作经历
2017-07-01 -至今阿里资深开发工程师
抓取平台
2016-05-01 -至今京东高级后端工程师
大数据平台、实时计、数据挖掘
2013-12-01 -至今宜搜科技开发工程师
网页搜索、抓取系统、挖掘系统
教育经历
2010-09-01 - 2014-07-01哈尔滨工程大学计算机科学与技术本科
云计算与大数据实验室