zoukankan      html  css  js  c++  java
  • requests库GET

    文档地址:http://docs.python-requests.org/zh_CN/latest/index.html

    import requests
    
    res = requests.get('https://www.baidu.com/')
    # print(type(res.text))
    # print(res.text)
    # print(type(res.content))
    # print(res.content.decode('utf-8'))  # 获取网页源码
    # print(res.url)  # 请求的url
    # print(res.encoding)  # 查看响应头部字符编码
    # print(res.status_code)  # 响应状态码
    
    """
    百度浏览器 查看中国两个字
    """
    param = {
        'wd': '中国',
    }
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/72.0.3626.121 Safari/537.36'
    }
    url = 'https://www.baidu.com/s'
    res = requests.get(url=url, headers=headers, params=param)
    with open('/Users/mac/PycharmProjects/TEST/TEST/爬虫day/file/requests.html', 'w', encoding='utf-8') as f:
        f.write(res.content.decode('utf-8'))
        
    """
    requests 笔记
    
    1,response.text这个是requests,将response.content进行解码的字符串。解码需要指定一个编码方式,request会根据自己的猜测来判断编码的方式。
    所以有时候可能会猜测错误,就会导致解码产生乱码,这个时候就应该使用response.content.decode('utf-8)进行手动解码
    response.content:这个是直接从网络上面抓取的数据,没有经过任何解码,所以是一个bytes类型。其实在硬盘上和在网络上传输的字符串都是bytes类型
    
    """
    
  • 相关阅读:
    爬虫综合大作业
    爬取全部的校园新闻
    理解爬虫原理
    中文词频统计与词云生成
    复合数据类型,英文词频统计
    字符串操作、文件操作,英文词频统计预处理
    了解大数据的特点、来源与数据呈现方式
    大数据应用期末总评
    分布式文件系统HDFS 练习
    安装Hadoop
  • 原文地址:https://www.cnblogs.com/wangyue0925/p/11093985.html
Copyright © 2011-2022 走看看