项目分为五大模块,分别是wanyiyunyinyuezjpl.py主干文件模块、items.py标签类文件模块、 middlewares.py中间工具文件模块、settings.py反反爬设置文件模块、pipelines.py数据管道文件模块。
wanyiyunyinyuezjpl.py主干文件模块的功能:主要负责需要抓取的网站基础数据元素的提取方法构建,根据具体情况,可以使用Xpath和正则re两种方法,包括二级网址信息的抓取,可以构建独立的函数模块对二级网址网站内容基础数据元素进行提取,支持翻页爬取,产生items标签类对象的具体数据元素。
items.py标签文件模块的功能:建立items标签类的类体,从wanyiyunyinyuezjpl.py主干文件模块接收items标签类对象的具体数据元素。
middlewares.py中间工具文件模块的功能:wanyiyunyinyuezjpl.py主干文件模块与items.py标签类文件模块和pipelines.py数据管道文件模块之间互相传送调用数据的工具型功能模块,相当于数据管道的中间阀门。
settings.py反反爬设置文件模块的功能:网站反反爬设置的构建,包括用户代理USER_AGENT、Cookie、Referer。
pipelines.py数据管道文件模块的功能:需要抓取的网站基础数据元素所构成的items标签类对象汇总到pipelines.py数据管道文件模块,最终建立并保存为客户所需要的项目名称的JSON文件。
点击空白处退出提示
评论