zoukankan      html  css  js  c++  java
  • 爬虫学习之-requests乱码

    总体功能的一个演示

    复制代码
    import requests
    
    response  = requests.get("https://www.baidu.com")
    print(type(response))
    print(response.status_code)
    print(type(response.text))
    print(response.text)
    print(response.cookies)
    print(response.content)
    print(response.content.decode("utf-8"))
    复制代码

    我们可以看出response使用起来确实非常方便,这里有个问题需要注意一下:
    很多情况下的网站如果直接response.text会出现乱码的问题,所以这个使用response.content
    这样返回的数据格式其实是二进制格式,然后通过decode()转换为utf-8,这样就解决了通过response.text直接返回显示乱码的问题.

    请求发出后,Requests 会基于 HTTP 头部对响应的编码作出有根据的推测。当你访问 response.text 之时,Requests 会使用其推测的文本编码。你可以找出 Requests 使用了什么编码,并且能够使用 response.encoding 属性来改变它.如:

    response =requests.get("http://www.baidu.com")
    response.encoding="utf-8"
    print(response.text)

    不管是通过response.content.decode("utf-8)的方式还是通过response.encoding="utf-8"的方式都可以避免乱码的问题发生

  • 相关阅读:
    SAP 会计科目
    固定资产采购
    MIRO 注意点
    移动类型与会计科目的字段选择
    特征、分类的命名规则
    采购进项税、 含税价转不含税价
    换手率
    内盘、外盘
    SAP 文本增强
    Intellj IDEA 问题集锦
  • 原文地址:https://www.cnblogs.com/brady-wang/p/9699579.html
Copyright © 2011-2022 走看看