zoukankan      html  css  js  c++  java
  • nodejs的简单爬虫

    闲聊

          好久没写博客了,前几天小颖在朋友的博客里看到了用nodejs的简单爬虫。所以小颖就自己试着做了个爬博客园数据的demo。嘻嘻......
         小颖最近养了条泰日天,自从养了我家仔仔后,我觉得我走上一条不归路,每天不到七点半就起床烧热水,然后给我家仔仔烫狗粮,给仔仔烫好狗粮后,我开始收拾自己,出门前给他再把热水瓶里的热水换了,每天跟伺候小孩一样伺候着我家小不点仔仔,然而在上周天他还是生病了,拉稀.......带宠物医院好不容易看好,医生说是低血糖,我就懵逼了,低血糖就不能让他饿着,可是他压根就不好好吃饭,我有什么办法,哎......操碎了心,祈祷吧希望我家小仔仔能健健康康快快乐乐的长大嘻嘻。

    看代码啦:

    1.首先先安装node。

    2.新建package.json:

    在自己创建的一个工程目录下打开cmd ,在里面输入命令npm init

    3.新建data和img文件夹

    4.新建app.js

    "use strict";
    
    // 引入模块
    var http = require('http');
    var fs = require('fs');
    var path = require('path');
    var cheerio = require('cheerio');
    
    // 爬虫的UR L信息
    var opt = {
      hostname: 'www.cnblogs.com',
      path: '',
      port: 80
    };
    
    // 创建http get请求
    http.get(opt, function(res) {
      var html = ''; // 保存抓取到的HTML源码
      var blogs = []; // 保存解析HTML后的数据,即我们需要的电影信息
    
      // 前面说过
      // res 是 Class: http.IncomingMessage 的一个实例
      // 而 http.IncomingMessage 实现了 stream.Readable 接口
      // 所以 http.IncomingMessage 也有 stream.Readable 的事件和方法
      // 比如 Event: 'data', Event: 'end', readable.setEncoding() 等
    
      // 设置编码
      res.setEncoding('utf-8');
    
      // 抓取页面内容
      res.on('data', function(chunk) {
        html += chunk;
      });
    
      res.on('end', function() {
        // 使用 cheerio 加载抓取到的HTML代码
        // 然后就可以使用 jQuery 的方法了
        // 比如获取某个class:$('.className')
        // 这样就能获取所有这个class包含的内容
        var $ = cheerio.load(html);
    
        // 解析页面
        // 每篇文章都在 item class 中
        $('#post_list .post_item .post_item_body').each(function() {
          // 获取图片链接
          var blog = {
            title: $('.post_item_body .titlelnk', this).text(), // 获取文章标题
            titleUrl: $('.post_item_body a', this).attr('href'), //文章链接地址
            peopleUrl: $('.post_item_summary a', this).attr('href'), // 博客地址
            peopleImg: $('.post_item_summary img', this).attr('src'),// 园友头像
            intro: $('.post_item_summary', this).text(), // 获取文章简介
            name: $('.post_item_foot .lightblue', this).text() // 获取文章简介
          };
    
          // 把所有文章放在一个数组里面
          blogs.push(blog);
          if (blog.peopleImg) {// 如果有图片则下载图片
            downloadImg('img/', 'http:' + blog.peopleImg);
          }
        });
    
        // 保存抓取到的文章数据
        saveData('data/data.json', blogs);
      });
    }).on('error', function(err) {
      console.log(err);
    });
    
    
    /**
     * 保存数据到本地
     *
     * @param {string} path 保存数据的文件
     * @param {array} blogs 文章信息数组
     */
    function saveData(path, blogs) {
      // 调用 fs.writeFile 方法保存数据到本地
      fs.writeFile(path, JSON.stringify(blogs, null, 4), function(err) {
        if (err) {
          return console.log(err);
        }
        console.log('Data saved');
      });
    }
    
    /**
     * 下载图片
     *
     * @param {string} imgDir 存放图片的文件夹
     * @param {string} url 图片的URL地址
     */
    function downloadImg(imgDir, url) {
      http.get(url, function(res) {
        var data = '';
    
        res.setEncoding('binary');
    
        res.on('data', function(chunk) {
          data += chunk;
        });
    
        res.on('end', function() {
          // 调用 fs.writeFile 方法保存图片到本地
          fs.writeFile(imgDir + path.basename(url), data, 'binary',
            function(err) {
              if (err) {
                return console.log(err);
              }
              console.log('Image downloaded: ', path.basename(url));
            });
        });
      }).on('error', function(err) {
        console.log(err);
      });
    }

    5.打开cmd执行 node app.js

    然后看data文件夹下会生成data.json文件,img文件夹下会生成许多图片。

    补充

    // 爬虫的UR L信息
    var opt = {
      hostname: 'www.cnblogs.com',
      path: '',
      port: 80
    };
  • 相关阅读:
    JS中parseInt()、Numer()深度解析
    如何写好.babelrc?Babel的presets和plugins配置解析
    懒加载和预加载
    vuex 的基本使用之Module
    vue 错误分析
    PrintWriter 和 Scanner 类的组合使用
    FileReader类和FileWriter类的基本用法示例
    Android SDK下载和更新失败的解决方法
    IntelliJ IDEA 14.x 创建工作空间与多个Java Web项目
    IntelliJ IDEA 14.x 与 Tomcat 集成,创建并运行Java Web项目
  • 原文地址:https://www.cnblogs.com/yingzi1028/p/6554076.html
Copyright © 2011-2022 走看看