zoukankan      html  css  js  c++  java
  • python爬虫--理论

    网络爬虫定义:

    web spider,网络蜘蛛是通过网页的链接地址来寻找网页的。

    打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。HTML是一种标记语言,用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。

    URL的格式由三部分组成:
    ①第一部分是协议(或称为服务方式)。
    ②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
    ③第三部分是主机资源的具体地址,如目录和文件名等。

    1.HTTP协议的URL示例:
    使用超级文本传输协议HTTP,提供超级文本信息服务的资源。 

    例:http://www.peopledaily.com.cn/channel/welcome.htm 

    其计算机域名为www.peopledaily.com.cn。

    超级文本文件(文件类型为.html)是在目录 /channel下的welcome.htm。

    这是中国人民日报的一台计算机。

    流程如下:

  • 相关阅读:
    debian7安装oracle11g
    unix fopen和fopen_s用法的比较
    QT的三种协议说明
    Qt之遍历文件夹
    Debian 7 安装配置总结
    用户不在sudoers文件中的解决方法 .
    QT断点续传
    QFtp类参考
    FTP服务器简易有效的访问方法
    Java爬虫搜索原理实现
  • 原文地址:https://www.cnblogs.com/leon507/p/7610254.html
Copyright © 2011-2022 走看看