zoukankan      html  css  js  c++  java
  • 簡單的爬蟲 一 ಥ_ಥ(就是一個頁面)

    Crawler and nodejs

    簡單的爬蟲 一 ಥ_ಥ(就是一個頁面)

    • 需要cheerio來過濾加載到內容;先安裝cheerio;
    • $('.postTitle a') 過濾該頁面的 .postTitle 類下的 a便籤;
    • 通過writeFileSync把過濾好的內容寫到文件中;(這裏不用到數據庫ಥ_ಥ 簡單 O(∩_∩)O~~)
    npm install cheerio
    
    

    新建一個app.js 文件;內容如下;
    運行該代碼 node app.js

    var http = require('http');
    var cheerio = require('cheerio');
    var fs = require('fs');
    http.get('http://www.cnblogs.com/xieyier/default.html?page=5',function (res) {
     var size=0;
     var chunks=[];
     res.on('data', function(chunk) {
         size+=chunk.length;
         chunks.push(chunk);
     });
     res.on('end', function() {
         var data=Buffer.concat(chunks,size);
         var result='';
         $=cheerio.load(data.toString());
         topics=$('.postTitle  a');
         fs.writeFileSync('result.html', topics);
         console.log(topics);   
     });
    }).on('error',function(e) {
     console.log(e.message);
    });
    
  • 相关阅读:
    10A:子串计算
    09I:鸡蛋的硬度
    09H:数字组合
    09G:登山
    09F:股票买卖
    09E-计算字符串距离
    09D-最大上升子序列和
    09C-全排列
    02C-垃圾炸弹
    【c#基础】vs2019设置高级选项
  • 原文地址:https://www.cnblogs.com/xieyier/p/4454230.html
Copyright © 2011-2022 走看看