zoukankan      html  css  js  c++  java
  • 用node.js做一个爬虫

    用node.js做一个爬虫

    var express = require('express');
    var superagent = require('superagent');
    var cheerio = require('cheerio');
    // 调用 express 实例,它是一个函数,不带参数调用时,会返回一个 express 实例,将这个变量赋予 app 变量。
    var app = express();
    
    app.get('/', function (req, res, next) {
      // 用 superagent 去抓取 https://cnodejs.org/ 的内容
      superagent.get('https://cnodejs.org/')
        .end(function (err, sres) {
          // 常规的错误处理
          if (err) {
            return next(err);
          }
          // sres.text 里面存储着网页的 html 内容,将它传给 cheerio.load 之后
          // 就可以得到一个实现了 jquery 接口的变量,我们习惯性地将它命名为 `$`
          // 剩下就都是 jquery 的内容了
          var $ = cheerio.load(sres.text);
          var items = [];
          $('#topic_list .topic_title').each(function (idx, element) {
            var $element = $(element);
            items.push({
              title: $element.attr('title'),
              href: $element.attr('href')
            });
          });
    
          res.send(items);
        });
    });
    
    app.listen(3000, function (req, res) {
      console.log('app is running at port 3000');
    });

    思想来源:https://github.com/alsotang/node-lessons/tree/master/lesson2

  • 相关阅读:
    String的方法capitalize
    python基本运算符
    计算机中常用进制转换
    python中的print函数
    python转义字符
    3.python中的基本概念
    4.input()
    1.计算机基础知识
    Pyhton实用的format()格式化函数
    jieba(结巴)常用方法
  • 原文地址:https://www.cnblogs.com/lswit/p/4829179.html
Copyright © 2011-2022 走看看