zoukankan      html  css  js  c++  java
  • 网络爬虫概述

    网络爬虫概述

    一、定义

    网络蜘蛛、网络机器人,抓取网络数据的程序。

    其实就是用Python程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好。

    二、爬取数据目的

    1、获取大量数据,用来做数据分析

    2、公司项目的测试数据,公司业务所需数据

    三、企业获取数据方式

    1、公司自有数据

    2、第三方数据平台购买(数据堂、贵阳大数据交易所)

    3、爬虫爬取数据

    四、python做爬虫的优势

    1、Python :请求模块、解析模块丰富成熟,强大的Scrapy网络爬虫框架

    2、PHP :对多线程、异步支持不太好

    3、JAVA:代码笨重,代码量大

    4、C/C++:虽然效率高,但是代码成型慢

    五、爬虫分类

    1、通用网络爬虫(搜索引擎使用,遵守robots协议)

    robots协议 :网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,

    通用网络爬虫需要遵守robots协议(君子协议)

    https://www.taobao.com/robots.txt

    2、聚焦网络爬虫 :自己写的爬虫程序

    六、爬虫爬取数据步骤

    1、确定需要爬取的URL地址

    2、由请求模块向URL地址发出请求,并得到网站的响应

    3、从响应内容中提取所需数据

      1、所需数据,保存

      2、页面中有其他需要继续跟进的URL地址,继续第2步去发请求,如此循环

     

  • 相关阅读:
    JQuery之在线引用
    SpringBoot之durid连接池配置
    VueJs之事件处理器
    VueJs之样式绑定
    VueJs之判断与循环监听
    PTA 7-8 暴力小学(二年级篇)-求出4个数字 (10分)
    PTA 7-7 交替字符倒三角形 (10分)
    PTA 7-5 阶乘和 (10分)
    PTA 7-4 哥德巴赫猜想 (10分)
    PTA 7-3 可逆素数 (15分)
  • 原文地址:https://www.cnblogs.com/maplethefox/p/11319858.html
Copyright © 2011-2022 走看看