zoukankan      html  css  js  c++  java
  • 1小时教你学会如何采集微博数据:0基础小白也能轻松学会!

    为什么要学这门课?应用场景有哪些?

    1、上班族与自媒体人:采集各类数据用于工作/运营实战;
    3、电商老板:采集竞品数据,帮助分析决策;
    3、找个副业:学会数据采集技能,网上接单赚钱。

    常见数据采集方式
    (1)人工采集:费时费力,出错率高,工作效率非常低下。
    (2)写爬虫采集:门槛略高,需会写编程,写完爬虫再调试,门槛高耗时长。

    一小时教你学会数据采集,无需编程知识,轻松采集所需数据,提高工作效率,解放生产力,多个副业多赚钱。 

     

    讲师介绍

    微博ID@码代码的三哥

    10+年互联网从业经验,科技公司技术副总监,精通数据处理、软件开发。

    它能采集什么样的数据?

    只要是电脑浏览器能打开的网站,它都可以采集。

    它不能采集什么样数据?

    只有手机App没有网站,这样的数据不能采集。

    学习本课所需工具

    1、安装谷歌浏览器

    首先下载谷歌浏览器并安装,https://www.google.cn/chrome/

    2、下载、安装爬虫插件

    1)下载插件: https://pan.baidu.com/s/15StxxtZOihb2zlsDnIS2Vw  提取码:86tn

    2)把下载的压缩包,复制到E盘根目录,解压,解压后名称为 webscraper_v0.5.3,如下图:

    3)下载并安装谷歌插件,如下视频

    https://www.bilibili.com/video/BV1W54y1r7nt/

    课程内容

    数据采集的思路(从大到小,从整体到局部)

    https://www.bilibili.com/video/BV1rT4y1F7cQ/

    1手把手教你采集微博数据(帖子内容、转、评、赞 数)

    1)新建一个爬虫; 

    https://www.bilibili.com/video/BV1Vv411r7j1/

     

    2)设置帖子数据框;

    https://www.bilibili.com/video/BV1kA411j7CG/

     

    3)设置发帖时间;

    https://www.bilibili.com/video/BV1Py4y1z7Co/

    4)设置帖子内容;

    https://www.bilibili.com/video/BV1Ra411A7Fu/

     

    5)设置 转评赞数据框;

    https://www.bilibili.com/video/BV1FZ4y157vy/

     

    6)设置 转评赞数据;

    https://www.bilibili.com/video/BV1Ua4y1s743/

     

    7)采集并核对数据;

    https://www.bilibili.com/video/BV1iV41127yD/

    8)如何让帖子按时间排序,采集隐藏的完整发帖时间;

    https://www.bilibili.com/video/BV1Br4y1w72x/

    9)如何采集多个页面的帖子数据

    https://www.bilibili.com/video/BV1Ra411c7jL/

    2、数据采集思路详解(采集数据就是找规律)

    1)分析规律,先整体后局部,整体--》整个数据框,局部 —》某一个数据项 

     

    2)数据框类型介绍,常用的3种类型:

    普通类型 Element

    鼠标滚动类型 Element scroll down

    鼠标点击类型 Element click

    本节课用到了 Element 和 Element scroll down。

    怎么选择类型,根据是否有特效来决定,无特效选Element,鼠标滚动选 Element scroll down,需要点击鼠标选Element click ,后面课程会对每一种类型做讲解和演示。

    3)数据项类型介绍:

    text 普通文本

    image 图片

    link 连接

    Element attribute 某个元素的属性(高级用法)

    本课程用到了text和Element attribute。

    怎么选择数据类型,普通文本选text,图片选image,链接选link,Element attribute需要一点网页知识。 

    ------------------

    text 类型的使用

    ------------------

    Element attribute 类型的使用

    4)如何采集多页数据:用3个页面的url来分析分页的规律;

    研究采集网址的规律,找出分页参数,然后设置参数,比如采集1到10页,设置为[1-10]。

    第一页:https://weibo.com/2644160831/profile?topnav=1&wvr=6&is_all=1

    第二页:https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=2#feedtop

    第三页:https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=3#feedtop

    第四页:https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=4#feedtop

    总结规律得出 page=x 是页面参数

    所以采集1到10页面我们设置url为 

    https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=[1-10]#feedtop

    最后是互动问答时间

     

  • 相关阅读:
    Iscroll滑动无效
    原生js 无缝滚动组件
    原生 js dialog弹窗组件
    html5 历史管理
    html5拖拽属性
    highcharts 数据图设置X轴间隔显示效果
    highcharts柱状图含有正负柱设置不同颜色的方法
    移动端滑动插件 swiper
    千分位添加和去掉方法
    dubbo常用类和路径
  • 原文地址:https://www.cnblogs.com/gezifeiyang/p/13811367.html
Copyright © 2011-2022 走看看