zoukankan      html  css  js  c++  java
  • 利用wget命令实现爬虫的简单抓取

    wget命令相信很多人并不陌生,但是绝大多数仅仅是利用它下载文件使用。其实它还有个作用,就是爬取数据

    它虽然不如Python,Java手写代码那么灵活,但是对于需求简单的,用这个足够了。

    话不多说,首先上抓取命令(以抓取博客园为例):

    wget -o /tmp/wget.log -P /root/data  --no-parent --no-verbose -m -D www.cnblogs.com   -N --convert-links --random-wait -A html,HTML,shtml,SHTML https://www.cnblogs.com/

    上面命令直接在linux执行,就能实现抓取。

    参数解释:

    -o:存放日志路径。

    -P:存放数据目录。

    --no-parent: 不追溯至父目录。

    --no-verbose:关闭详尽输出,但不进入安静模式。

    -m:-N -r -l inf --no-remove-listing 的缩写形式。

    -D:逗号分隔的可接受的域列表。

    -N:只获取比本地文件新的文件。

    --convert-links:让下载得到的 HTML 或 CSS 中的链接指向本地文件。

    --random-wait:随机等待时间。

    -A:逗号分隔的可接受的扩展名列表。

    这里仅仅列出了上面用到的命令,其它的wget命令可以使用wget --help来查看。

    最后放下抓取效果:

  • 相关阅读:
    jQuery火箭图标返回顶部代码
    类库引用EF
    Html.DropDownList
    MVC validation
    MVC @functions
    MVC 扩展方法特点
    Class 实现IDisposing方法
    MVC两个必懂核心
    Asp.net 服务器Application,Session,Cookie,ViewState和Cache区别
    sqlserver log
  • 原文地址:https://www.cnblogs.com/shuai7boy/p/13042359.html
Copyright © 2011-2022 走看看