zoukankan      html  css  js  c++  java
  • python爬虫入门---第四篇:网站对爬虫的限制及突破测试

    大部分网站对网络爬虫都有限制,限制方式有两种:

    一、Robots协议;二、网站通过判断对网站访问http的头部信息来查看是否是爬虫,并对爬虫做相关拦截

    第一种限制是书面限制,第二种是强制性阻拦限制。那我们如何去突破第二种限制呢?

    首先我们要爬取一个网站大部分会使用requests库的get()方法,而get()方法返回的response对象中包含了我们对网站的请求信息。例如:

    import requests
    
    url = 'https://www.cnblogs.com/huwt/'
    
    res = requests.get(url)
    
    print(res.request.headers)

    -----------------------------------------------
    输出结果:
    {'User-Agent': 'python-requests/2.19.1', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

    通过请求的头部信息我们可以看到一个键值对:'User-Agent': 'python-requests/2.19.1',而强制性的限制就是通过判断'User-Agent'的值来判断是否为爬虫,

    只要我们将请求对象中'User-Agent'的值修改为浏览器的'User-Agent'即可,例如:

    import requests
    
    url = 'https://www.cnblogs.com/huwt/'
    
    res = requests.get(url, headers = {'User-Agent':'Mozilla/5.0'})
    
    print(res.request.headers)

    -----------------------------------------------
    输出结果:
    {'User-Agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

    我们可以看到通过修改get()方法的参数就能将'User-Agent'的值被修改为'Mozilla/5.0',此时我们的爬虫模拟成了Mozilla/5.0浏览器,

    这样就可以不被识别的去访问一些有所限制的网站了。

    提醒:

    以上方法只供实验测试使用,任何一名爬虫使用者都应遵守Robots协议,文明爬取网站。

    蒹葭苍苍,白露为霜; 所谓伊人,在水一方。
  • 相关阅读:
    AtCoder Beginner Contest 070 (A B C D)
    sqlite数据库的两种增删改查、事物
    CloseableHttpClient设置超时
    mybatis注解大全
    log4j.properties通用配置
    log4j.xml常用配置
    redistempalate的超时设置的操作更新
    在maven项目中如何引入另外一个项目(转)
    eclipse找不到JadClipse问题
    JDK8的新特性——Lambda表达式
  • 原文地址:https://www.cnblogs.com/huwt/p/10371103.html
Copyright © 2011-2022 走看看