proginn2105068348Python-程序员客栈

D级

学生

贵阳

全职 · 300/日 · 6525/月信用正常

工作时间: 工作日09:30-19:00、周末08:00-22:00工作地点: 远程

服务企业: 0家累计提交: 0工时

立即雇佣

聊一聊

APP聊一聊

去下载APP

主页

我现在是在校大学生，平常希望以工助学，通过接项目的过程，写的过程，获取进步

2022-11-01 -至今西南大学签约公司学生
主要负责数据爬取，对爬取的数据通过正则表达式，爬取文本内容中想要的数据，进行筛选，偶尔也可以写一点前端，写一些好看的页面

2021-09-01 - 西南大学软件工程本科

C++熟悉

Python熟练

作品

使用python scrapy框架对boss直聘进行数据的爬取

在数据进行爬取的时候遇到了很多问题，在使用scrapy框架时需要下载很多python的库，比如scrapy，然后还需要重新调制scarpy当中的参数，比如BOT_NAME = "boss" SPIDER_MODULES = ["boss.spiders"] NEWSPIDER_MODULE = "boss.spiders" # Crawl responsibly by identifying yourself (and your website) on the user-agent USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.76"在此框架下既可以使用selenium也可以使用requess也可以二者结合

2023-11-20 21:33

爬取大宗点评，携程上有关关键词的景区评论，点赞数量，热评

这两个网站我用的request即可，因为在对页面进行分析的时候，发现很轻松的就找到了隐藏的js文件，阿贾克斯文件，获取url后，再去获取相关的data或者parms参数，两个网站都需要在登录的情况下进行数据的爬取，所以就需要保留当前页面的cookie，全部都加载头文件中，headers，这样即可访问隐藏的数据，再将数据存到mysql当Z中，实现永久存储

2023-11-20 21:27

爬取小红书上你想要的关键词搜所后的文本内容

使用了selenium,因为小红书的反爬机制很强，所以填了一个stain.js的文件避免被封掉ip 成功登录以后即可为心所欲，在页面爬取时，因为页面的数据是动态加载的，所以我们还需要一些js的操作，每隔5秒自动向下滑动滑轮一定距离，是的数据远远不断的刷新，判断当前页面是否到底，只需要判断当前页面的高度是否有改变，如果一直没变，则说明数据爬取完毕，任务结束

2023-11-20 21:23

更新于: 2023-11-20 浏览: 646

个人介绍

工作经历

教育经历

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐