zoukankan      html  css  js  c++  java
  • HTTP 代理

    HTTP 代理:

    (1) 如果我们一直用同一个IP去爬取同一个网站上的网页,久了之后可能会被该网站服务器屏蔽,因此我们可以使用代理IP来爬取,代理实际上指的就是代理服务器
    (2) 当我们使用代理IP爬取时,服务器端显示的是代理IP的地址,即使被屏蔽了,我们可以换一个代理IP继续爬取,代理IP获取页面:https://www.xicidaili.com/ 


    根据协议区分代理:

    (1) FTP 代理:主要用于访问 FTP 服务器, 一般有上传、下载以及缓存功能
    (2) HTTP 代理:主要用于访问网页,一般有内容过滤和缓存功能
    (3) SSL/TLS 代理:主要用于访问加密网站, 一般有 SSL 或TLS 加密功能(最高支持128 位加密强度)
    (4) Telnet 代理:主要用于 telnet 远程控制(黑客人侵计算机时常用于隐藏身份)
    (5) SOCKS 代理: 只是单纯传递数据包,不关心具体协议和用法,所以速度快很多, 一般有缓存功能 


    根据匿名程度区分代理:

    (1) 高度匿名代理:会将数据包原封不动地转发,在服务端看来就好像真的是一个普通客户端在访问,而记录的 IP 是代理服务器的 IP 
    (2) 普通匿名代理:会在数据包上做一些改动, 服务端上有可能发现这是个代理服务器,也有一定几率追查到客户端的真实IP
    (3) 透明代理:不但改动了数据包,还会告诉服务器客户端的真实IP,这种代理除了能用缓存技术提高浏览速度,能用内容过滤提高安全性之外,并无其他显著作用
    (4) 间谍代理:指组织或个人创建的用于记录用户传输的数据,然后进行研究、监控等目的的代理服务器

        

  • 相关阅读:
    oracle常用命令
    批量导出docker镜像
    python中的xpath
    __call__, __str__
    闭包
    ORM操作
    nginx跨域请求
    docker-compose命令
    nginx 之 websocket长连接
    nginx--proxy_set_header
  • 原文地址:https://www.cnblogs.com/pzk7788/p/10530092.html
Copyright © 2011-2022 走看看