zoukankan      html  css  js  c++  java
  • 【Python网络爬虫一】爬虫原理和URL基本构成

    1.爬虫定义

    网络爬虫,即Web Spider,是一个很形象的名字。
    把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。
    网络蜘蛛是通过网页的链接地址来寻找网页的。
    从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,
    然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

    2.浏览网页的过程

    爬虫爬取网页数据的过程和用户浏览网页的原理是一样的。

    用户输入一个地址如“www.baidu.com”,客户端浏览器首先查询DNS服务器,查找IP地址(浏览器缓存->系统缓存->路由器缓存...)

    浏览器向web服务器发送一个http请求。

    服务器处理请求,根据http协议组建一个数据包,返回给客户端浏览器。

    浏览器接受数据包,将HTML的内容渲染出来显示在浏览器中。

    3.URL的概念和举例

    简单的来讲,URL是Uniform Resource Locator的缩写,译为“统一资源定位符”。

    就是在浏览器端输入的    http://www.baidu.com    这个字符串。

    采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。

    URL的格式由三部分组成: 

    ①第一部分是协议(或称为服务方式)。

    ②第二部分是存有该资源的主机IP地址(有时也包括端口号)。

    ③第三部分是主机资源的具体地址,如目录和文件名等。

    第一部分和第二部分用“://”符号隔开,

    第二部分和第三部分用“/”符号隔开。

    第一部分和第二部分是不可缺少的,第三部分有时可以省略。 

    总结:

    爬虫最主要的处理对象就是URL,它根据URL地址取得所需要的文件内容,然后对它 进行进一步的处理。
    因此,准确地理解URL对理解网络爬虫至关重要。

  • 相关阅读:
    如何给女朋友解释什么是分布式和集群?【转】
    彻底理解cookie、session、token 【转】
    API到底是什么? 【汇总,转】
    代理的基本原理【转】
    从未如此简单:10分钟带你逆袭Kafka!【转】
    一口气说出Kafka为啥这么快? 【转】
    kafka官网 http://kafka.apache.org/intro
    网络相关命令配置【汇总 更新中】
    Kafka的四个基础概念学习【转】
    Kafka简介及各个组件介绍 【转】
  • 原文地址:https://www.cnblogs.com/SeekHit/p/6089397.html
Copyright © 2011-2022 走看看