1. 思路: 按类目,一层一层地解析目标网站,找到没一本书的实际内容。2. 保存: 按照实际章节的顺序,来保存每一本书。三个网站:1. 武侠:从下载一本书, 到下载一个类目的图书,再到下载全站的图书。2. 99藏书网: 由于原始 html 里面是加盐的,因此需要借助 selenium 来获取 js 处理过的页面。3. 努努书坊: 每本书的内容还是很完整的,只是大部分类型我不喜欢。
评论