新浪微博数据采集图文详解

zoukankan html css js c++ java

新浪微博数据采集图文详解
随着大数据和社交网络的火爆发展,社交网络上产生的数据也越来越有价值,特别是微博微信作为时下最火热的社交平台,如果能对这两个平台上的数据进行深入分析挖掘,那么价值将非常巨大, 要采集的数据为指定城市的所有微博用户的相关信息。比如微博名称,微博地址,微博数量,粉丝数量,名片等等,进入正题,看看具体一步一步怎么操作来实现的。
1. 打开八爪鱼采集器,新建一个任务之后,如下图选择分组:新浪微博,这里其实随便什么分组都可以,我是把新浪微博专门放了一个分组,以便管理采集微博的多个任务。任务名称,这里按照自己的情况输入即可,我这里采集的是沈阳的微博信息。然后输入备注。
2. 然后就到了设计采集流程的界面，这个界面看起来复杂，其实很简单，我们先看上面一半，包括第一个 Go to Web Page, 和Check Condition 里面的全部流程步骤。其实他们完成一个什么工作呢？就是打开微博登录页面，然后检查用户是否登录，如果没有登录，则走左边流程，三步：输入用户名，输入密码，点击登录。如果已经登录，则走右边流程：什么事情都不做。为什么需要登录呢，如果不登录，则只能看到一页数据，登录后就能看所有数据，所以我们想要采集所有数据，就要登录。下半部分流程因截图不全，所以请大家看第三步。
3. 接上一步，这里看下半部分流程，下半部分第一步是打开沈阳用户列表，然后是一个Loop循环：循环翻页，因为我们要采集所有页面的数据，在这个循环内部，还有一个循环：循环当前页所有用户，这样就能采集到一个页面的多个用户的数据，微博一页有20个用户的数据。这个循环内部有一个提取数据的步骤，这一步就是真正提取数据，不过他提取的是当前循环用户的数据。我们只需要在页面上点击要采集的数据，系统就会自动配置好，所以这一步很容易。
4. 配置好采集规则之后，我们设定执行计划，这里因为我需要每周采集一次，以获取到这一周新注册的微博用户，所以我选择一周一次，注意这个定时是云采集的，意思是，他会在八爪鱼采集器的云服务器跑，而且启动时间如图，我们定的是周一晚上0点，当然这个时间你可以自己定。所以我们电脑不用每周一晚上0点打开去采集，我们配好就不管了，以后每个周一0点，八爪鱼云采集服务器都会自动启动我的任务进行采集。
5. 经过以上几个步骤就算配置好了，我们下一步，进行一个测试，从图中可以看到已经顺利采集到了数据，当采集完成之后，即可导出为Excel等使用了。
查看全文

相关阅读:
第二周作业
 7-2 求最大值及其下标
 第十一周作业
 第九周编程总结
 第八周作业
 第七周作业
 第六周作业
 第五周作业
 第4周作业
 第三周作业

原文地址：https://www.cnblogs.com/keven1006/p/3448743.html