zoukankan      html  css  js  c++  java
  • 抓取网页报403错误,爬虫解决403禁止访问错误方法

    抓取网页报403错误,爬虫解决403禁止访问错误方法

    一般就是被禁止了,加上对应的header参数就可以了,要具体分析正常访问时需要那些头信息
    其中User-Agent是浏览器特有的属性,通过浏览器F12调试器就可以看到

    以下是Python示例,java也类似

    req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36")
    req.add_header("GET",url)
    req.add_header("Host","blog.xxx.net")
    req.add_header("Referer","http://www.xxx.net/")

    获取浏览器类型的User-Agent信息,在自定义函数中需要写出自己的Host,Referer,GET信息等,
    解决这几个问题,就可以顺利访问了,不再出现403禁止访问了
    如果访问频率过快的话,需要用到代理IP的方法。

  • 相关阅读:
    利用requests, beautifulsoup包爬取股票信息网站
    Mac自带编码转换工具iconv
    Flask 快速入门
    HTML模版组件
    JavaScript正则表达式及jQuery回顾
    jQuery 教程
    Document
    Document
    Document
    Document
  • 原文地址:https://www.cnblogs.com/zdz8207/p/java-wget-http-403.html
Copyright © 2011-2022 走看看