zoukankan      html  css  js  c++  java
  • wget 抓取整站

    wget -r -p -np -k http://doc.code365.net/Manual/FreeBSD_Arch_HandBook/
    
    -r  递归
    -p,  --page-requisites(页面必需元素)
    -np, --no-parent(不追溯至父级)
    -k  将下载的HTML页面中的链接转换为相对链接即本地链接
    

    找了几个wget技巧,发一下。

    $ wget -r -np -nd http://example.com/packages/
    这条命令可以下载 http://example.com 网站上 packages 目录中的所有文件。其中,-np
    的作用是不遍历父目录,-nd 表示不在本机重新创建目录结构。
    
    $ wget -r -np -nd --accept=iso http://example.com/centos-5/i386/
    与上一条命令相似,但多加了一个 --accept=iso 选项,这指示 wget 仅下载 i386
    目录中所有扩展名为 iso 的文件。你也可以指定多个扩展名,只需用逗号分隔即可。
    
    $ wget -i filename.txt
    此命令常用于批量下载的情形,把所有需要下载文件的地址放到 filename.txt 中,
    然后 wget 就会自动为你下载所有文件了。
    
    $ wget -c http://example.com/really-big-file.iso
    这里所指定的 -c 选项的作用为断点续传。
    
    $ wget -m -k (-H) http://www.example.com/
    该命令可用来镜像一个网站,wget 将对链接进行转换。如果网站中的图像是放在另外的站点,
    那么可以使用 -H 选项
    
  • 相关阅读:
    hadoop_并行写操作思路_2
    hadoop_并行写操作思路
    Hadoop_Block的几种状态_DataNode
    KMP算法_读书笔记
    德才论
    换个格式输出整数
    继续(3n+1)猜想
    害死人不偿命的(3n+1)猜想
    c# number求和的三种方式
    c# 中的协变和逆变
  • 原文地址:https://www.cnblogs.com/caobiin/p/7168889.html
Copyright © 2011-2022 走看看