zoukankan      html  css  js  c++  java
  • python爬虫-初步认识

     特此声明:

    • 以下内容来源于博主:http://blog.csdn.net/pleasecallmewhy

                                          http://cuiqingcai.com/

    • 根据需要整理到自己的笔记中,用于学习。

    网络爬虫Web crawler):也叫网络蜘蛛Web spider),网络爬虫的基本操作就是抓取网页。

    浏览网页:在火狐浏览器中打开百度www.baidu.com ,就是将浏览器作为一个’客户端‘,

                   向服务器发送一次请求, 把服务器的文件’抓取‘到本地,再进行解释和展现.

    HTML:是一种标记语言,用标签标记内容并加以解析和区分。

    浏览器功能:将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。

    URL(Uniform / Universal Resource Locator:称为统一资源定位符(也叫网址)

    URL格式:

    • 协议
    • 服务器(域名或IP地址),有时也包括端口号(以数字表示,可省略)
    • 路径(即主机资源的具体地址)
    • 查询(以?为起点)

    第一部分协议和第二部分服务器用' :// '符合隔开,第二部分服务器和第三部分路径用' / '隔开

    例如:http://zh.wikipedia.org:80/w/index.php

    http:是协议

    zh.wikipedia.org,是服务器

    80,是服务器上的网络端口号

    /w/index.php,是路径

    爬虫最主要的处理对象就是URL 

     

  • 相关阅读:
    bzoj4804
    bzoj2962
    bzoj4827
    bzoj2553
    bzoj3611
    BZOJ 1636: [Usaco2007 Jan]Balanced Lineup
    BZOJ 1635: [Usaco2007 Jan]Tallest Cow 最高的牛
    BZOJ 1634: [Usaco2007 Jan]Protecting the Flowers
    BZOJ 1631: [Usaco2007 Feb]Cow Party
    BZOJ 2582: [Usaco2012Jan]Bovine Alliance
  • 原文地址:https://www.cnblogs.com/wujiadong2014/p/4926313.html
Copyright © 2011-2022 走看看