所谓爬虫就是,获取html文档,然后从中爬取出需要的数据信息。
1.如何用node获取html文档
var http = require('http')
var url = 'http://www.ziroom.com/';
http.get(url, function (res) {
var html = '';
res.on('data', function (data) {
html += data;
})
res.on('end', function () {
console.log(html);//这里已经完全获取到了html
});
}).on('error', function () {
console.log('获取数据出错!');
});
2.如何操作这个html文档并进行爬虫
要使用cheerio这个包
https://www.npmjs.com/package/cheerio
这个玩意可以通过cheerio.load() 来加载一段html字符串
然后通过jquery操作来获取 想要的东西。
3.最后可以console.log或者用fs给写出来。