zoukankan      html  css  js  c++  java
  • 关于python爬虫request.get()方法的常用参数

    最近在写一些爬虫相关的小项目,了解了一下request模块的get()方法

    这里记录一下,request.get的常用参数

    1、设置proxy代理及user_agent两个参数

    import requests
    from lxml import etree
    
    user_agent = {'User-agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36"}
    
    # 测试https需要有,用于访问https的网站需要的
    proxies={
    'http':'proxy.qq_5201351.com.cn:8080',
    'https':'proxy.qq_5201351.com.cn:8080'
    }
    # 如果不需要代理,在get方法中可以不写 headers = user_agent,也可以使用如下方式定义为空字典{}
    # proxies={}
    
    response=requests.get("https://www.cnblogs.com/5201351",headers = user_agent,proxies=proxies)
    text=response.text

    另:一般在得到response.text,如果需要使用xpath去解析,可以导入lxml模块的etree

    尊重别人的劳动成果 转载请务必注明出处:https://www.cnblogs.com/5201351/p/15583042.html

    作者:一名卑微的IT民工

    出处:https://www.cnblogs.com/5201351

    本博客所有文章仅用于学习、研究和交流目的,欢迎非商业性质转载。

    博主的文章没有高度、深度和广度,只是凑字数。由于博主的水平不高,不足和错误之处在所难免,希望大家能够批评指出。

    博主是利用读书、参考、引用、抄袭、复制和粘贴等多种方式打造成自己的文章,请原谅博主成为一个卑微的IT民工!

  • 相关阅读:
    每日一题
    每日一题
    每日一题
    每日一题
    GitLab 部署
    Golang Web开发之Gin入门
    Golang消息队列之NSQ
    Golang操作Redis
    Golang操作MySQL
    Golang Json数据处理方法
  • 原文地址:https://www.cnblogs.com/5201351/p/15583042.html
Copyright © 2011-2022 走看看