zoukankan      html  css  js  c++  java
  • 利用nodeJS实现的网络小爬虫

    var http=require("http");
    var cheerio=require('cheerio');
    var url="http://www.imooc.com/learn/348";
    function filterCharpter(html){
       var $=cheerio.load(html);
       var charpters=$(".chapter");
       console.log(typeof(charpters));
       var courseData=[];
       charpters.each(function(item){
              var chapter=$(this);
              chapter.find('strong').find('.chapter-content').remove();
              var chapterTitle=chapter.find('strong').text().trim();
              var videos=chapter.find('.video>li');
              var charpterData={
                   chapterTitle:chapterTitle,
                   videos:[]
              }

              videos.each(function(item){
                  var video=$(this);
                   var videoTitle=video.find('.J-media-item').text().trim();
                   var viedoTitleData=videoTitle.split(' ');
                   console.log(viedoTitleData);
                   var id=video.data("media-id");
                   var viedoData={
                       videoTitle:viedoTitleData[0]+"  "+viedoTitleData[1].trim(),
                       id:id
                   }
                   charpterData.videos.push(viedoData);
              })

              courseData.push(charpterData);
       })
        return courseData;
    }
    function printOut(courseData)
    {
         courseData.forEach(function(item){
             console.log(item.chapterTitle+' ');
             item.videos.forEach(function(video){
                 console.log("   【"+video.id+"】"+ video.videoTitle);
             })
         })
    }
    var server=http.get(url,function(res){
        var html="";
       res.on('data',function(data){
             html+=data
       })
       res.on('end',function(){
           
           var courseData=filterCharpter(html);
           printOut(courseData);
       })
    }).on('error',function(){

           console.log("error")
       });

  • 相关阅读:
    构建之法阅读笔记03
    周进度条
    周活动总结表
    电脑桌面美化
    如何让自己进步,去做成一件事
    后台网站
    laravel RBAC权限管理学习
    laravle定时任务
    django第一次简单讲解使用
    css3网页的淡入淡出效果
  • 原文地址:https://www.cnblogs.com/heshan1992/p/6071444.html
Copyright © 2011-2022 走看看