text和content的区别?
requests对象的get和post方法都会返回一个Response对象, 这个对象里面存的是服务器返回的所有信息,包括响应头,响应状态码等。
其中返 回的网页部分会存在.content和.text 两 个对象中
1.content中间存的是字节流数据
2.text中存的是根据requests模块自己猜测的编码方式将content内容编码成Unicode
常常我们使用requests.content输出的内容是需要解码的(因为网页上的内容是编码而成的,而在Python中字符串形式是以Unicode形式存在的,当然我们只想看到那些字符串,不想看到那些乱七八糟的字节,所以我们爬下来的东西才需要去解码)
encode和decode
decode可以解码什么类型的数据? 二进制还是unicode?
encode()这个函数将字符串转化成相应编码方式的字节形式。
decode()函数是bytes类型转str类型
result = requests.get(“http://www.baidu.com“) result.encoding='utf-8' result_text = result.text
import requests url = 'https://www.baidu.com' r = requests.get(url=url) result = r.text result = result.encode('ISO-8859-1').decode('utf-8') print(result)