zoukankan      html  css  js  c++  java
  • 一个Node.js的小爬虫

    爬虫其实就是对网页内特定id、class、标签内容的提取,多是循环出来的,对我们爬取非常便利。

    1.安装node

    node官网下载安装包安装,后在命令行工具中输入node -v查看node安装的版本。

    2.实现项目

    创建项目并进入

    mkdir node-worm && cd node-worm

    初始化项目环境,一路回车

    npm init

    安装依赖

    npm install request cheerio --save-dev

    在项目根目录创建app.js并写入以下代码

    var request = require('request')
    var cheerio = require('cheerio')
    var reqUrl = 'https://www.cnblogs.com/e-cat/'
    request(reqUrl, function (err, result) {
      if (err) {
        console.log(err)
      }
      let $ = cheerio.load(result.body)
      let list = []
      $('#main #mainContent .forFlow .day').each((index, element) => {
        let date = $($(`${element.name} .dayTitle a`)[index]).text() || ''
        let title = $($(`${element.name} .postTitle a span`)[index]).text()
        let desc = $($(`${element.name} .postCon .c_b_p_desc`)[index]).text()
        let href = $($(`${element.name} .postTitle a`)[index]).attr('href')
        let obj = {
          date,
          title,
          desc,
          href,
        }
        list.push(obj)
      })
      console.log(list)
    })

    其中reqUrl为爬取目标网址,提取的obj即为最终获取的内容结构。

  • 相关阅读:
    CSS: 三栏布局
    CSS: 实现两栏布局,左边固定,右边自适应的4种方法
    css清除浮动
    浏览器解析时间线
    @Valid解决无法校验List问题
    Docker+Jenkins+Git+Maven实现Springboot项目自动化部署
    Git安装(CentOS)
    Jenkins安装
    Docker安装(Centos)
    Maven安装(Linux)
  • 原文地址:https://www.cnblogs.com/e-cat/p/13202709.html
Copyright © 2011-2022 走看看