a.解决反爬问题以及海量数据存储。b.获取网页源代码后,接下来就是分析网页源代码,从中提取我们想要的数据。提取方法有两种:1.采用正则表达式提取,这是一个万能的方法,但是在构造正则表达式时比较复杂且容易出错。2.由于网页的结构有一定的规则,所以还有一些根据网页节点属性、CSS选择器或Xpath选择器来获取网页信息的库,如Beautiful Soup、pyquery、lxml等。使用这些库可以高效快速地从中提取网页信息,如节点的属性、文本值等。
评论