使用爬虫框架自动获取某电影平台上的电影信息,并持久化到 mongodb 中。整体操作遵循 robots.txt 规范,同时控制执行频率以避免对对方平台产生攻击效果。
通过 python 编写爬虫程序,实现自动化爬取网站信息,并对数据进行整理分析汇总成表格形式。开发过程中用到了 webdriver、selenium、json、tkinter、pandas 等第三方库。该项目的难点在于爬取页面有反爬机制,且网页内容的下拉框不好选择,只能通过不断点击来选择不同选项。解决方法是每次少量爬取信息,尽量不触发反爬机制。
点击空白处退出提示
评论