闲鱼app数据抓取

我要开发同款
alben_jarvis2023年11月04日
80阅读
所属分类IT

作品详情

模拟器登录闲鱼sdpy协议强制走http协议解析json在最后的一个阶段中,主要完成的是对刚刚发布信息的抓取。 2. 项目的主要难点在于对闲鱼 app 进行登录操作,因为软件有模拟器检测,所以在不断的破解和尝试各种 版本的安装包,以及模拟器的适配,从而完成对支付宝的下载,登录时即可直接登录闲鱼 app。 3. 项目的难点也在于如何筛选出哪些是刚刚发布标签的,由于手机模拟器抓包获取的批量 json,一页中可 以存储十一条的商品信息,因此很大概率会在刚刚发布标签中掺杂一些数分钟之前的信息。我的选择是在选择到混 合刚刚发布以及其他信息的页面中直接中断掉。这样就获得了全部为需要的标签和数部分不需要的标签。将这混合 的标签放在新建 json 文件的最后一页。一定要按照顺序排序后放在最后一页。之后开始进行数据的清洗,清洗的 数据我将刚刚发布标签保留了下来,作为爬取中断的锲机。在清洗到获取 chanel_head,也就是刚刚发布标签。写 一个捕获异常的操作,将四个字作为定位符,一旦循环到第一个非刚刚发布标签,立刻将异常抛出,直接杀掉程序。 这也就是为什么我将混合的 json 放在最后一页。这样就筛选出哪些不是刚刚发布的标签,直接不解析,不存储。 三次异常的捕获抛出分别是程序中断返回空值以及在 json 文件头没有用户 id 时候就调到后文 ID 的位置
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论