微博爬虫，我讨厌说些废话，需要什么数据我就可以爬

爬虫和数据可视化分析，要做一只爬虫，首先就得知道他会干些什么，是怎样工作的。所以得有一些关于HTML的前置知识，这一点做过网页的应该最清楚了。　　　HTML(超文本标记语言)，是一种标记性语言，本身就是一长串字符串，利用各种类似 < a >，< /a>这样的标签来识别内容，然后通过浏览器的实现标准来翻译成精彩的页面。当然，一个好看的网页并不仅仅只有ＨTML，毕竟字符串是静态的，只能实现静态效果，要作出漂亮的网页还需要能美化样式的CSS和实现动态效果的JavaScipt，只要是浏览器都是支持这些玩意儿的。　　　嗯，我们做爬虫不需要了解太多，只需要了解HTML是基于文档对象模型（ＤＯＭ）的，以树的结构，存储各种标记，就像这样：　　　之后会用到这种思想来在一大堆HTML字符串中找出我们想要的东西。了解了这个然后还得了解网页和服务器之间是怎么通信的，这就得稍微了解点HTTP协议，基于TCP/IP的应用层协议，规定了浏览器和服务器之间的通信规则，简单粗暴的介绍几点和爬虫相关的就是：别废话，烦不烦啊，需要说明我可以摆个讲台说一天

微博爬虫，我讨厌说些废话，需要什么数据我就可以爬

作品详情

重点城市程序员兼职推荐

重点岗位程序员兼职推荐