spidernet是一个以递归树为模型的多线程web爬虫程序,支持text/html资源的获取.可以设定爬行深度,最大下载字节数限制,支持gzip解码,支持以gbk(gb2312)和utf8编码的资源;存储于sqlite数据文件.
源码中TODO:标记描述了未完成功能,希望提交你的代码.
spidernet是一个以递归树为模型的多线程web爬虫程序,支持text/html资源的获取.可以设定爬行深度,最大下载字节数限制,支持gzip解码,支持以gbk(gb2312)和utf8编码的资源;存储于sqlite数据文件.
源码中TODO:标记描述了未完成功能,希望提交你的代码.
评论