项目分为定位数据源模块、数据爬取模块、数据清洗模块,具体细分有十余个模块。
主要实现了从各个政府网站上(预写网站参数,程序读入)爬取其政策法规内容,然后将政策法规条文进行清洗,最终存储到MySql数据库中。
主要使用了scrapy框架实现爬虫模块、Flask框架实现数据的前端展示、布隆过滤器实现数据去重。
点击空白处退出提示
语言技术
Python、HTML5、CSS、JavaScript、MySQL参考价格
10000
项目分为定位数据源模块、数据爬取模块、数据清洗模块,具体细分有十余个模块。
主要实现了从各个政府网站上(预写网站参数,程序读入)爬取其政策法规内容,然后将政策法规条文进行清洗,最终存储到MySql数据库中。
主要使用了scrapy框架实现爬虫模块、Flask框架实现数据的前端展示、布隆过滤器实现数据去重。




评论