zoukankan      html  css  js  c++  java
  • 爬虫时url中http和https的区别

    今天在爬取一个网页时发现总是爬取不成功,信息量很少,只有几行代码,而原网页代码量是很多的,后来我把url中的https换成了http后就把网页源码全部爬取了,查了资料后发现url中使用http和https是有很大区别的:http获取数据时信息齐全,https获取数据的信息有缺失,在确定网络地址后,一般采用http

    如何访问没有采用HTTPS协议的网站:

    from urllib import request
    # 导入pythopn ssl处理模块
    import ssl
    
    # 利用非认证上下文环境替换认证的上下文环境
    ssl._create_default_https_context = ssl._create_unverified_context
    # 之前12306没有采用HTTPS协议,需要这样设置一下,18年开始采用了之后就不用这样操作了
    url = "https://www.12306.cn/index/"
    rsp = request.urlopen(url)
    html = rsp.read().decode()
    print(html)

    1.HTTP和HTTPS的基本概念
      HTTP:是互联网上应用最为广泛的一种网络协议,是一个客户端和服务器端请求和应答的标准(TCP),用于从WWW服务器传输超文本到本地浏览器的传输协议,它可以使浏览器更加高效,使网络传输减少。
      HTTPS:是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。

    2.HTTP与HTTPS之间的区别 
      HTTP协议传输的数据都是未加密的,也就是明文的,因此使用HTTP协议传输隐私信息非常不安全,为了保证这些隐私数据能加密传输,于是网景公司设计了SSL(Secure Sockets Layer)协议用于对HTTP协议传输的数据进行加密,从而就诞生了HTTPS。简单来说,HTTPS协议是由SSL+HTTP协议构建的可进行加密传输、身份认证的网络协议,要比HTTP协议安全。
      HTTPS和HTTP的区别主要如下:
      1、https协议需要到ca申请证书,一般免费证书较少,因而需要一定费用。
      2、http是超文本传输协议,信息是明文传输,https则是具有安全性的ssl加密传输协议。
      3、http和https使用的是完全不同的连接方式,用的端口也不一样,前者是80,后者是443。
      4、http的连接很简单,是无状态的;https协议是由SSL+HTTP协议构建的可进行加密传输、身份认证的网络协议,比http协议安全。

  • 相关阅读:
    做才是得到
    常用工具汇总
    迎接2017
    新年礼物
    2017
    asp.net core 日志
    板子|无向图的割点
    11/06信竞快乐模拟赛
    动态规划复习
    894D
  • 原文地址:https://www.cnblogs.com/wjw2018/p/10577681.html
Copyright © 2011-2022 走看看