zoukankan      html  css  js  c++  java
  • 只能在浏览器正常访问后的一段之间才能用爬虫爬取

    依然是爬取五等分的花嫁漫画。在爬取时发现需要获得的某个数据只能在浏览器正常打开后才能获取,否则获得的是空数据。

    折腾了cookie也没有用。想啊想,看啊看,试啊试,最终还是没有解决问题

    又去参考了前辈的代码,加了header中的referer终于解决了问题。

    headers = {
            'Referer':
                'https://www.dm5.com/manhua-bianfuxia-fuzhizuiqian'
            }

    现在还是不明白为什么。先贴个关于referer的解释(发现这个单词竟然早期拼错,然后沿用下来了。我就觉得是referrer)

    HTTP Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从哪个页面链接过来的,服务器基此可以获得一些信息用于处理

    我错了,刚刚看了一眼,虽然获得了数据,但是得到的图片都是防盗链的图片。无fuck说。

    到底为什么要先访问一遍才能获得数据呢

    参考文章:

    爬取动漫屋网站

  • 相关阅读:
    第三方支付
    优化MySQL插入方法的五个妙招
    MySQL的数据类型和建库策略详解
    mysql 文本搜索
    mysql 存储过程
    mysql 游标的使用
    mysql 触发器
    mysql 保留点
    MySQL 使用硬链接配合truncate 删除2.2T的表
    25-ZigZag Conversion
  • 原文地址:https://www.cnblogs.com/roadwide/p/10805666.html
Copyright © 2011-2022 走看看