proginn2152268725
12天前在线
全职 · 400/日  ·  8700/月
工作时间: 工作日21:00-22:30、周末9:00-17:00工作地点:
服务企业: 36家累计提交: 4工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

熟悉requests,selenium,BeautifulSoup等模块处理网页数据,熟练使用正则表达式,xpath,css选择器提取网页元素,熟悉使用selenium模拟登陆,pyv8进行js解析
了解scrapy,scrapy-redis框架,能用scrapy-redis搭建分布式爬虫,linux下cron定时启动爬虫
熟悉使用mysql,了解Mysql索引,事务,约束,多表连接查询,子查询,备份等;了解redis数据库
熟练linux命令,会用rsync进行数据同步,能用grep、sed、awk等命令或编写python、shell脚本处理数据,会使用kettle进行数据抽取等操作
会python django,java springmvc开发web项目;会开发android app

工作经历

  • 2018-05-01 -至今眼控科技爬虫

    1、通过爬取各个网站数据,或者线下采集各种需求数据,再将数据按照统一格式进行清洗,使用比较多的方式通过Python脚本或者linux脚本及命令进行数据批量处理,数据处理好后交个标注人员对数据进行标注再二次清洗,数据达到算法要求再统一分批次入库

教育经历

  • 2011-09-01 - 2014-06-01九江学院汽车制造专科

    当过学习委员,参加过各种学校活动,拿过2次奖学金

技能

0
1
2
3
4
5
0
1
2
3
4
5
作品
世纪佳缘项目

1、对需要爬取的数据进行分析,思考解决爬虫中的难点问题,因数据量较多,使用多台主机部署爬虫 2、使用requests的post方法请求世纪佳缘登录页面,使用RequestsCookieJar方法获取动态cookie 3、构建代理IP池,使用BeautifulSoup模块处理数据,用find、find_all方法对世纪佳缘数据进行提取,解析 3、通过get请求的json数据进行解析提取百合网数据 4、使用正则,xpath,re模块提取有缘网数据 5、把爬取的数据通过os模块写入到本地csv文件,对图片下载耗时操作采用多线程将图片下载到本地,并把图片命名关联到csv数据

0
2021-05-12 15:41
汽车之家项目

1、了解数据需求,分析网页发现部分数据使用js动态加载,并使用伪元素加入混淆 2、根据js逆向策略,找出对应的js文件从最后一步找起,缺啥找啥,把需要的函数找到使用PyV8库对js作解析,最终找出数据的映射关系 3、结合数据的映射,使用requests,正则,xpath提取网页需要的数据 4、通过pymysql模块将爬取的数据保存到mysql数据库 5、使用logging日志模块进行爬虫监控,并根据日期输出到不同的log文件

0
2021-05-12 15:40
天眼查项目

1、分析网页数据,考虑到数据量较多,采用scrapy-redis搭建分布式爬取数据,此框架搭建分布式比较方便且爬取更快,而且也实现了数据去重、增量处理 2、初次使用静态cookie进行数据爬取,后因静态cookie的时效性,采用了重写spider中的start_requests方法,并使用selenium、PhantomJS无界面模拟登录获取动态cookie信息 3、使用BeautifulSoup模块处理数据,用css选择器对数据进行抽取,解析 4、构建User-Agent池,开启Middleware中间件使用UA伪装浏览器 5、考虑到单个用户爬取频率过高,采用注册多个用户同时进行爬取

0
2021-05-12 15:41
更新于: 2021-05-09 浏览: 1461