利用wget命令实现爬虫的简单抓取 - 走看看

zoukankan html css js c++ java

利用wget命令实现爬虫的简单抓取
wget命令相信很多人并不陌生，但是绝大多数仅仅是利用它下载文件使用。其实它还有个作用，就是爬取数据。

它虽然不如Python，Java手写代码那么灵活，但是对于需求简单的，用这个足够了。

话不多说，首先上抓取命令(以抓取博客园为例)：
wget -o /tmp/wget.log -P /root/data --no-parent --no-verbose -m -D www.cnblogs.com -N --convert-links --random-wait -A html,HTML,shtml,SHTML https://www.cnblogs.com/
上面命令直接在linux执行，就能实现抓取。

参数解释：

-o：存放日志路径。

-P：存放数据目录。

--no-parent：不追溯至父目录。

--no-verbose：关闭详尽输出，但不进入安静模式。

-m：-N -r -l inf --no-remove-listing 的缩写形式。

-D：逗号分隔的可接受的域列表。

-N：只获取比本地文件新的文件。

--convert-links：让下载得到的 HTML 或 CSS 中的链接指向本地文件。

--random-wait：随机等待时间。

-A：逗号分隔的可接受的扩展名列表。

这里仅仅列出了上面用到的命令，其它的wget命令可以使用wget --help来查看。

最后放下抓取效果：
查看全文

相关阅读:
jQuery火箭图标返回顶部代码
 类库引用EF
Html.DropDownList
MVC validation
MVC @functions
MVC 扩展方法特点
 Class 实现IDisposing方法
 MVC两个必懂核心
 Asp.net 服务器Application,Session,Cookie,ViewState和Cache区别
 sqlserver log

原文地址：https://www.cnblogs.com/shuai7boy/p/13042359.html

Copyright © 2011-2022 走看看