zoukankan      html  css  js  c++  java
  • node js 爬虫爬取静态页面,

    先打一个简单的通用框子

    //根据爬取网页的协议 引入对应的协议, http||https
    var http = require('https');
    //引入cheerio  简单点讲就是node中的jquery  jquery写法获取所得页面dom元素
    var cheerio = require('cheerio');
    //目标网址  这里是图片网址
    var url = '';
    //文件读写
    var fs = require('fs');
    //发送request请求
    var request = require('request');
    //防止中文乱码
    var iconv = require('iconv-lite');
    
    
    function getimage(url, page) {
      //采用http模块向服务器发起一次get请求
      http.get(url, function (res) { //get到x网址,成功执行回调函数
        var html = ''; //用来存储请求网页的整个html内容
        var htmlarr = [];
        var htmllength = 0;
        //监听data事件,每次取一块数据
        res.on('data', function (chunk) {
          // html += chunk;
          htmlarr.push(chunk);
          htmllength += chunk.length;
        });
        //监听end事件,如果整个网页内容的html都获取完毕,就执行回调函数
        res.on('end', function () {
          html = Buffer.concat(htmlarr,htmllength);
          html = iconv.decode(html,'gb2312');
          var $ = cheerio.load(html,{decodeEntities: false}); //采用cheerio模块解析html
          //fs.stat 判断文件夹是否存在  ./2717/
          fs.stat("./2717/" + page, (err, stats) => {
            if(stats){
              save($,page)
             return
            }
            // fs.mkdir 没有文件夹就创建文件
            fs.mkdir("./2717/" + page, function (err) {
              if (err) {
                return console.error(err);
              }
              save($,page)
            });
          });
        });
      }).on('error', function (err) { //http模块的on data,on end ,on error事件
        console.log(err);
      });
    }
    function save($,page){
      var imgarr = [];
      console.log($('.w1200 .w1200 .w110 img').length);
      $('.w1200 .w1200 .w110 img').each(function (val, index) {
        var obj = {
          url: $(this).attr('src'),
          alt: $(this).attr('alt')
        }
        if('夏天少女系清新漂亮美甲背景图片' == $(this).attr('alt')) console.log($(this).attr('src'));
        imgarr.push(obj)
        request(encodeURI($(this).attr('src'))).pipe(fs.createWriteStream("./2717/" + page+'/'+$(this).attr('alt')+'.jpg'));
      });
      fs.appendFile("./2717/" + page+'/备注.txt', JSON.stringify(imgarr), 'utf-8', function (err) {
        if (err) {
          console.log(err);
        }
      });
    }
    for(var i = 1 ;i<12;i++){
      url='https://www.2717.com/beautiful/beijingtupian/list_24_'+i+'.html';
      getimage(url, i);
    }
    

      

      上面的 html 就是页面所有的内容,就跟你谷歌浏览器 f12之后的elements 看到的一样,

    这个只能爬静态页面,用ajax渲染的页面爬不到。

    本人qq  :981900309 

  • 相关阅读:
    Codeforces Round #657 (Div. 2) 题解
    洛谷 P2765 魔术球问题 (最小路径覆盖 or 贪心)
    洛谷 P2472 蜥蜴 (最大流)
    Codeforces Round #665 (Div. 2) 题解
    洛谷 P1231 教辅的组成 (三分图匹配,裂点)
    USACO5.4 奶牛的电信Telecowmunication (最小割,割边转割点)
    有关网络流的一些板子题
    洛谷 p2756 飞行员配对方案问题(最大流,二分图匹配)
    JSON.toJSONString中序列化空字符串遇到的坑
    关于mysql自动备份的小方法
  • 原文地址:https://www.cnblogs.com/caihua0405/p/10541074.html
Copyright © 2011-2022 走看看