曾在北京一天天教育(老男孩)系统学习python,因为自己非常喜欢爬虫,在多个平台学习爬虫知识,并购买多本爬虫相关的书籍进行爬虫学习,熟悉的反爬有 js加密 js混淆 js逆向,字体加密,cookie认证,动态加载,验证码,音视频分离,ts流。爬取过的网站有 :B站视频,咪哩咪哩(m3u8 ts流),好大夫,微博模拟登陆,大众点评店铺评论,必应壁纸,有道翻译,网易云音乐评论,西瓜短视频,起点中文网 等等。
用代码登陆微博,1.通过js获取用户名的加密方式 2.获取公钥以及请求参数3.通过js获取密码的加密方式、配合第二步的参数对密码进行加密4.然后通过获得的参数获取通行证5.根据通行证进行登陆
0 2021-03-12 10:24
1.获取原始网页,通过加密字符分析SVG对照表的位置,获取SVG文件
2.通过SVG和css规律来解析出css雷属性对应的字符
3.在原始网页中替换掉加密的字符
4.去掉一些会造成影响的标签,在进行解析
0 2021-03-12 10:31
1.b站视频是音频和视频分离的
2.通过网页源码获取音视频链接
3.然后通过ffmpeg和command进行合成(ffmpeg需要提前配置好环境)
0 2021-03-12 10:38