zoukankan html css js c++ java

基于Node.js的爬虫工具 – Node Crawler

Node Crawler的目标是成为最好的node.js爬虫工具，目前已经停止维护。

我们来抓取光合新知博客tech栏目中的文章信息。
访问http://dev.guanghe.tv/category/tech/，右键查看页面源代码，可以看到文章信息等内容，如下所示：

<li>

<a class="post-link" href="/2015/12/Getting-Started-With-React-And-JSX.html">React和JSX入门指导</a>

</li>

<li>

<a class="post-link" href="/2015/12/ReactJS-For-Stupid-People.html">React 懒人教程</a>

</li>

</ul>

因为每篇文章都是一个<li>标签，所以我们从页面代码的所有<li>中获取文章的发布时间、链接和标题。

爬虫代码：

var Crawler = require('crawler');

var crawler = new Crawler({

maxConnections: 10,

callback: function(err, result, $) {

$('li').each(function(index, li) {

console.log(index + ' :');

console.log('time:' + $(li).children(0).text());

console.log('url:' + result.uri + $(li).children(1).attr('href'));

console.log('title:' + $(li).children(1).text());

});

}

});

crawler.queue('http://dev.guanghe.tv/category/tech/');

npm install安装crawler模块，node app.js运行程序。
你将会获得如下内容（仅展示部分内容）：

0 :

time:Dec 31, 2015

url:http://dev.guanghe.tv/category/tech//2015/12/Getting-Started-With-React-And-JSX.html

title:React和JSX入门指导

1 :

time:Dec 30, 2015

url:http://dev.guanghe.tv/category/tech//2015/12/ReactJS-For-Stupid-People.html

title:React 懒人教程

2 :

time:Dec 24, 2015

url:http://dev.guanghe.tv/category/tech//2015/12/iOSCustomProblem.html

title:iOS开发常见问题

3 :

time:Dec 17, 2015

url:http://dev.guanghe.tv/category/tech//2015/12/iOSXcodeDebug.html

title:Xcode Debug技巧

查看全文

相关阅读:
5分钟造出好记又难猜的密码！
拯救你的文档 – 【DevOps敏捷开发动手实验】开源文档发布
 VSALM 动手实验
 #VSTS日志# TFS 2015 Update 2 RC2新功能
 用户故事驱动的敏捷开发 – 1. 规划篇
 精益软件开发与精益管理：从一家关闭的汽车厂重焕青春说起
 创建用户故事地图(User Story Mapping)的8个步骤
 用户故事地图(User Story Mapping)之初体验
 (视频) 基于HTML5的服务器远程访问工具
 比较php字符串连接的效率