zoukankan      html  css  js  c++  java
  • 爬虫--计算机网络技术基础

    1、引言

      1)、为什么要懂计算机网络

    遇到爬虫问题,更容易分析并解决。

    比如:更容易理解模拟登陆、反爬、非浏览器客户端数据爬取等

      2)、对于爬虫,计算机网络中主要学习的是:网络协议

    了解数据交互、传输的原理

      3)、推荐书籍:

        a)计算机网络(自顶向下方法)

        b)TCP/IP协议族

     2、一个完整的网络请求过程

    输入网址-->浏览器通过域名(网址)查询DNS服务器-->通过DNS返回IP地址(IP地址和DNS服务器是有绑定关系的)-->浏览器通过IP地址,与web服务器建立TCP连接-->浏览器向web服务器发起http请求-->web服务器将生成的html返回给浏览器-->浏览器解析html,展示网页数据

     3、IP地址和url

    1)、整个网络传输相当于快递,ip地址相当于门牌号

    2)、动态ip和静态ip:

    一般网络中,ip地址会随着路由器的重启变化,所以在自己家里面布置服务器一般不太现实。

    静态ip是不会变的,可以用来布置服务器,但是需要购买。

    所以,一般情况下,服务器是不会随便封ip的。

    3)、url

    url格式:http://www.example.com:80/path/to/myfile.html?key1=v1&key2=v2#maodian

    协议:常用协议:http、https、file、ftp

    域名:可以看做是ip地址的别名,可以用ip地址来替换域名进行访问。

    端口:指明服务器上的应用程序,默认是80(80可以省略)

    路径:指定html

    ?,参数:通过参数指定页面数据的显示方式,或过滤信息

    #,锚点:在当前页面跳转到当前页面指定位置。

     相对url:在html中会遇到直接以‘/path...’的路径,其实是省略了域名的。

    4、七层网络协议

    七层是标准的网络协议,一般情况下,只会用到5层

     各网络层的网络协议:

     

    各网络层对应的软硬件:

    协议在客户端和服务器端的传输顺序相反:

     

     5、TCP/IP协议

    IP协议:负责给源ip地址 和 目标ip地址贴上标签,负责传送道路

    TCP协议:负责把数据拆分成多个数据片段(每个片段具有对应的ip地址)

  • 相关阅读:
    java private修饰的类和变量
    Volatile和Synchronized对可见性和原子性的支持
    Socket套接字
    Spring MVC请求执行流程
    Spring AOP术语解释
    equals()和==的区别
    约瑟夫环之递归算法
    数据库特性之原子性和一致性
    设计模式之单例模式
    平衡二叉树的插入旋转
  • 原文地址:https://www.cnblogs.com/jaysonteng/p/12727704.html
Copyright © 2011-2022 走看看