zoukankan      html  css  js  c++  java
  • 爬虫时url中http和https的区别

    今天在爬取一个网页时发现总是爬取不成功,信息量很少,只有几行代码,而原网页代码量是很多的,后来我把url中的https换成了http后就把网页源码全部爬取了,查了资料后发现url中使用http和https是有很大区别的:http获取数据时信息齐全,https获取数据的信息有缺失,在确定网络地址后,一般采用http

    如何访问没有采用HTTPS协议的网站:

    from urllib import request
    # 导入pythopn ssl处理模块
    import ssl
    
    # 利用非认证上下文环境替换认证的上下文环境
    ssl._create_default_https_context = ssl._create_unverified_context
    # 之前12306没有采用HTTPS协议,需要这样设置一下,18年开始采用了之后就不用这样操作了
    url = "https://www.12306.cn/index/"
    rsp = request.urlopen(url)
    html = rsp.read().decode()
    print(html)

    1.HTTP和HTTPS的基本概念
      HTTP:是互联网上应用最为广泛的一种网络协议,是一个客户端和服务器端请求和应答的标准(TCP),用于从WWW服务器传输超文本到本地浏览器的传输协议,它可以使浏览器更加高效,使网络传输减少。
      HTTPS:是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。

    2.HTTP与HTTPS之间的区别 
      HTTP协议传输的数据都是未加密的,也就是明文的,因此使用HTTP协议传输隐私信息非常不安全,为了保证这些隐私数据能加密传输,于是网景公司设计了SSL(Secure Sockets Layer)协议用于对HTTP协议传输的数据进行加密,从而就诞生了HTTPS。简单来说,HTTPS协议是由SSL+HTTP协议构建的可进行加密传输、身份认证的网络协议,要比HTTP协议安全。
      HTTPS和HTTP的区别主要如下:
      1、https协议需要到ca申请证书,一般免费证书较少,因而需要一定费用。
      2、http是超文本传输协议,信息是明文传输,https则是具有安全性的ssl加密传输协议。
      3、http和https使用的是完全不同的连接方式,用的端口也不一样,前者是80,后者是443。
      4、http的连接很简单,是无状态的;https协议是由SSL+HTTP协议构建的可进行加密传输、身份认证的网络协议,比http协议安全。

  • 相关阅读:
    vue-cli 2.x升级到3.x版本, 和3.x降级到2.x版本命令
    vue-cli 2.x项目,删除打包线上环境的控制台打印
    vue-cli 2.x项目使用cross-env新建多个打包环境
    解决vue项目路由出现message: "Navigating to current location (XXX) is not allowed"的问题
    vue打包后,解决出现不到字体文件的错误
    js 网络图片转base64的方式(两种)
    vscode编译器,Settings Sync 同步插件,忘记GitHub token 和 Gist的解决办法
    输入两个时间,计算他们相差多少天多少时,多少秒
    老生常谈之js深拷贝与浅拷贝
    React Hooks 你不来了解下?
  • 原文地址:https://www.cnblogs.com/wjw2018/p/10577681.html
Copyright © 2011-2022 走看看