zoukankan      html  css  js  c++  java
  • wget整站下载被robots.txt阻挡时的处理方法

    [摘要]wget功能非常强大,可以使用wget对整站进行递归下载,但是有时候一些站点会通过配置robots.txt对访问进行限制,这里讲一个小技巧可以避开robots.txt的限制。

    事件的背景是我想从mirrors.163.com的某个目录批量下载一些东西回来,比如:
    wget -r -p -np http://mirrors.163.com/debian/dists/jessie/main/installer-amd64/
    想法是对installer-amd64目录递归下载,但实际上wget只下载了一个index.html和一个robots.txt,下载就被终止了。
    看了一下robots.txt的内容:

    于是查找了一番,发现了wget的强大之处,使用如下命令即可:

    顺便贴出wget的使用方法:

  • 相关阅读:
    Pyhon数据分析20——matplotlib可视化(二)之柱状图
    程序运行正常,数据库没反应
    Redis在Linux环境下安装的常见错误
    1.1-1.4 sqoop概述及安装cdh版hadoop
    3、css边框以及其他常用样式
    3.15-3.21 hive项目实战
    2、css的存在形式及优先级
    1、css选择器
    3.11-3.14 Hive 企业使用优化2
    3.7-3.10 Hive 企业使用优化1
  • 原文地址:https://www.cnblogs.com/klausage/p/14969260.html
Copyright © 2011-2022 走看看