D华华-西安Python-程序员客栈

1月前来过

D级

Python爬虫

西安

全职 · 500/日 · 10875/月信用正常

工作时间: 工作日10:00-22:00、周末10:00-22:00工作地点: 远程

服务企业: 4家累计提交: 2工时

立即雇佣

聊一聊

APP聊一聊

去下载APP

主页

熟练应用Python语言，熟悉面向对象和函数式编程思想。
熟练使用selenium、appnium等Android自动化框架，及Android adb命令。
熟练应用Linux常用操作命令和vim文本编辑器
熟练应用SQL语句，掌握MySQL、mongodb、Redis等数据库。
熟练应用requests、xpath、正则re模块，熟悉urllib、Beautifulsoup等数据包的库。
熟练应用反反爬虫机制，如代理IP、User-Agent代理、ajax请求分析、cookie登录、模拟浏览器登陆。
熟练应用scrapy，熟悉分布式爬虫的基本架构和流程。
熟练应用HTML/CSS/Ajax，了解JS/jQuery/Bootstrap等Web前端技术。
了解Django和Flask前端框架。
熟悉 Git 的使用,对代码进行上传、管理。

2016-04-01 -至今趣点点Python爬虫
1.参与爬虫项目的框架设计和开发，并爬取数据的工作； 2.负责设计和搭建环境，进行页面的数据抓取，清洗，去重； 3.设计爬虫策略和反爬虫机制，提升网页抓取的效率和质量； 4.爬取图片，并对图片进行简单的处理； 5. 抓取视频，并上传到阿里云点播控制台； 6.设计数据库，存储数据

2011-09-01 - 2014-06-01陕西铁路工程职业技术学院测绘科学与技术大专
一共获得过两次奖学金，两次优秀班干部，并且成为了一名共产党员

Linux掌握

Appium掌握

Django掌握

Redis掌握

MongoDB掌握

git熟练

Selenium熟练

python爬虫熟练

Python熟练

MySQL熟练

作品

某集APP数据爬取

根据公司需求和业务的扩展，需要对*APP云集的所有商品信息进行采集，包括父类模块分类，子类模块分类，商品id，名称，售价，原价，品牌，相关参数，主图，详情图等信息进行了采集，并将图片上传到阿里云的OSS储存器中。 1.抓取*app，必须借助于抓包工具，所以对fiddler抓包工具进行了相关配置，并对*进行设置和安全证书的下载安装； 2.对云集app进行抓包，根据分析得到相关的json数据。因为此app的商品信息和商品的详情图参数不在一个链接中，所以需要对一个商品进行两次解析，才能获取到全部所需信息； 3.使用scrapy框架对相关的信息进行爬取并将数据保存在数据库，使用requests和urllib对商品的相关图片进行下载，并上传到阿里云的OSS储存器中； 4.对代码进行维护和对数据、图片进行二次清洗和更改。

2020-04-23 15:15

某东商品数据爬取

因公司自主研发的*APP“点多多”项目，需要增加商城功能，需要商品展示，按照公司的要求对京东商城的七类商品进行了采集，包括商品类别，商品ID，名称，价格，品牌，参数，折扣价，主图，详情图等相关信息进行了采集；并将数据保存在数据库，图片需上传到OSS上。 1.分析项目网页的结构，制定爬虫的方式； 2.根据项目需求用Scrapy搭建爬虫框架，根据项目需求制定爬取计划； 3.通过Scrapy.Request发送请求，并设置ip代理，用Xpath解析页面，使用正则进行特殊的页面解析，如：js渲染的价格数据和图片链接； 4.对数据进行采集，然后将采集下的数据进行分析处理，清洗； 5.将采集的数据存储到MySql数据库中； 6.将图片先下载到本地，然后在上传到阿里云的OSS储存器中； 7.对代码和数据进行维护和相关的处理。

2020-04-23 15:13

某点评网数据爬取

根据客户要求，需要爬取某点评网的美食店铺信息，包括：店铺id，店铺名称，*，评分，星级，地址，营业时间，店铺类型，经纬度，推荐菜品。 1.根据需求搭建爬虫框架，并分析解析网页； 2.设置ip代理池，开启redis服务做缓存和去重； 3.某点评网使用了css字体加密，所以使用fontTools和字体工具解析字体文件，得到明文和暗文的对应关系； 4.根据对应关系替换原网页的内容，抓取所需信息； 5.根据数据内容设计并创建数据库表，保存数据到数据库。

2020-04-23 15:10

更新于: 2020-04-23 浏览: 1090

个人介绍

工作经历

教育经历

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐