zoukankan      html  css  js  c++  java
  • 抓取网站, 趴取网站HTML页面

    在Linux服务器中输入如下命令抓取网站HTML页面:

    wget -r   -p -np -k -E  http://www.xxx.com 抓取整站

    wget -l 1 -p -np -k       http://www.xxx.com 抓取第一级

    -r 递归抓取
    -k 抓取之后修正链接,适合本地浏览.

    wget -m -e robots=off -k -E "http://www.xxx.com/"
    可以将全站下载以本地的当前工作目录,生成可访问、完整的镜像。

    解释:

    -m  //镜像,就是整站抓取
    -e robots=off   //忽略robots协议,强制、流氓抓取
    -k  //将绝对URL链接转换为本地相对URL
    -E //将所有text/html文档以.html扩展名保存

  • 相关阅读:
    repr() Vs str()
    默认参数
    元组
    字典
    电脑可以办的两类最基本的事情
    代码块
    变量名
    print的逻辑
    input的逻辑
    让python2听懂中文
  • 原文地址:https://www.cnblogs.com/john-xiong/p/14298873.html
Copyright © 2011-2022 走看看