zoukankan      html  css  js  c++  java
  • 2.01_Python网络爬虫概述

    一:什么是网络爬虫

      网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取网络信息的程序或者脚本;

    二:为什么要做网络爬虫?

      大数据时代,要进行数据分析,首先要有数据源,数据从何而来?

      在进行大数据分析或者进行数据挖掘的时候,数据源可以从某些提供数据统计的网站获得,也可以从某些文献或内部资料中获得,但是这些获得数据的方式,

    有时很难满足我们对数据的需求,而手动从互联网中去寻找这些数据,则耗费的精力过大。此时就可以利用爬虫技术,自动地从互联网中获取我们感兴趣的数据内

    容,并将这些数据内容爬取回来,作为我们的数据源,从而进行更深层次的数据分析,并获得更多有价值的信息。

      比如说:     

      而学习爬虫,可以让我们获取更多的数据源,并且这些数据源可以按我们的目的进行采集,去掉很多无关数据。

    三:浏览器请求URL:

      当用户输入网址之后,经过DNS服务器,找到服务器主机,然后向服务器发出请求,服务器经过解析之后,发送给用户的浏览器HTML、JS、CSS等文件,

    浏览器解析出来,便看到形形色色的图片,因此,用户看到的网页实质是由HTML代码构成的,爬虫爬来的正是这些内容,通过分析过滤和谐HTML代码,实现对

    图片、文字等资源的获取;

    四:关于网络爬虫

      1. Python基础语法学习(基础知识)

      2. 对HTML页面的内容抓取(数据抓取)

      3. 对HTML页面的数据提取(数据提取)

      4. Scrapy框架以及scrapy-redis分布式策略(第三方框架)

      6. 爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争....

  • 相关阅读:
    动态规划之矩阵连乘
    常见的开放符号服务器
    QT中的宏定义
    QT Creator项目路径设置
    批处理-日常小功能用法记录
    Qt Creator快捷键记录
    利用Navicat premium实现将数据从Oracle导入到MySQL
    php BCmath 封装类
    PHP 反射类
    Html标签生成类
  • 原文地址:https://www.cnblogs.com/yaboya/p/9000076.html
Copyright © 2011-2022 走看看