Crawler and nodejs
簡單的爬蟲 一 ಥ_ಥ(就是一個頁面)
- 需要cheerio來過濾加載到內容;先安裝cheerio;
- $('.postTitle a') 過濾該頁面的 .postTitle 類下的 a便籤;
- 通過writeFileSync把過濾好的內容寫到文件中;(這裏不用到數據庫ಥ_ಥ 簡單 O(∩_∩)O~~)
npm install cheerio
新建一個app.js 文件;內容如下;
運行該代碼 node app.js
var http = require('http');
var cheerio = require('cheerio');
var fs = require('fs');
http.get('http://www.cnblogs.com/xieyier/default.html?page=5',function (res) {
var size=0;
var chunks=[];
res.on('data', function(chunk) {
size+=chunk.length;
chunks.push(chunk);
});
res.on('end', function() {
var data=Buffer.concat(chunks,size);
var result='';
$=cheerio.load(data.toString());
topics=$('.postTitle a');
fs.writeFileSync('result.html', topics);
console.log(topics);
});
}).on('error',function(e) {
console.log(e.message);
});