该项目完全由本人撰写,可以从https://www.cde.org.cn/hymlj/listpage/c723ac5960cee1811b7be33a2acf8224网页上爬取所有的药品说明书。难点在于该网页有infobox,是动态加载的,所以不能用requests库和正则表达式解析,只能用selenium模拟浏览器访问。同时动态加载的网页要等待加载完全,所以在模拟打开网页后需要一定的等待时间。此处用while循环实现了一个动态调整等待时间的方法,而非设定一个固定的等待时间(由于网速的不同,固定的等待时间有时会报错,或导致爬取速度过慢,因为数据太多,有数千条)。
点击空白处退出提示











评论