zoukankan      html  css  js  c++  java
  • python爬虫--理论

    网络爬虫定义:

    web spider,网络蜘蛛是通过网页的链接地址来寻找网页的。

    打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。HTML是一种标记语言,用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。

    URL的格式由三部分组成:
    ①第一部分是协议(或称为服务方式)。
    ②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
    ③第三部分是主机资源的具体地址,如目录和文件名等。

    1.HTTP协议的URL示例:
    使用超级文本传输协议HTTP,提供超级文本信息服务的资源。 

    例:http://www.peopledaily.com.cn/channel/welcome.htm 

    其计算机域名为www.peopledaily.com.cn。

    超级文本文件(文件类型为.html)是在目录 /channel下的welcome.htm。

    这是中国人民日报的一台计算机。

    流程如下:

  • 相关阅读:
    问题 I: 夫子云游
    问题 H: 小k的简单问题
    问题 G: 圆桌上的晚餐
    问题 F: 超超的自闭意思
    promise与aysnc 与EventProxy
    node的实践(项目三)
    node的实践(项目二)
    node不懂的方法的使用
    github
    node的实践(项目一)
  • 原文地址:https://www.cnblogs.com/leon507/p/7610254.html
Copyright © 2011-2022 走看看