zoukankan      html  css  js  c++  java
  • [js高手之路]Node.js实现简易的爬虫-抓取博客所有文章列表信息

    抓取目标:就是我自己的博客:http://www.cnblogs.com/ghostwu/

    需要实现的功能:

    抓取博客所有的文章标题,超链接,文章摘要,发布时间

    需要用到的库:

    node.js自带的http库

    第三方库:cheerio,这个库就是用来处理dom节点的,他的用法几乎跟jquery用法一模一样,所以有了这个利器,写一个爬虫就非常简单

    准备工作:

    1,npm init --yes 初始化package.json

    2,安装cheerio:npm install cheerio --save-dev

    实现的目标,是要把每篇文章需要抓取的部分( 抓取文章标题,超链接,文章摘要,发布时间 )整理成一个对象, 放在数组中,如:

    [ { title: '[置顶][js高手之路]从零开始打造一个javascript开源框架gdom与插件开发免费视频教程
    连载中',
        url: 'http://www.cnblogs.com/ghostwu/p/7470038.html',
        entry: '摘要: 百度网盘下载地址:https://pan.baidu.com/s/1kULNXOF 优酷土豆观看地址:htt
    p://v.youku.com/v_show/id_XMzAwNTY2MTE0MA==.html?spm=a2h0j.8191423.playlist_content.5!3~5~
    5~A&&f',
        listTime: '2017-09-05 17:08' },
      { title: '[js高手之路]Vue2.0基于vue-cli+webpack Vuex用法详解',
        url: 'http://www.cnblogs.com/ghostwu/p/7521097.html',
        entry: '摘要: 在这之前,我已经分享过组件与组件的通信机制以及父子组件之间的通信机制,而
    我们的vuex就是为了解决组件通信问题的 vuex是什么东东呢? 组件通信的本质其实就是在组件之间传
    递数据或组件的状态(这里将数据和状态统称为状态),但可以看到如果我们通过最基本的方式来进行
    通信,一旦需要管理的状态多了,代码就会',
        listTime: '2017-09-14 15:51' },
      { title: '[js高手之路]Vue2.0基于vue-cli+webpack同级组件之间的通信教程',
        url: 'http://www.cnblogs.com/ghostwu/p/7518158.html',
        entry: '摘要: 我们接着上文继续,本文我们讲解兄弟组件的通信,项目结构还是跟上文一样. 在
    src/assets目录下建立文件EventHandler.js,该文件的作用在于给同级组件之间传递事件 EventHandl
    er.js代码: 2,在Components目录下新建一个组件Brother1.vue 。通过Eve',
        listTime: '2017-09-13 22:49' },
       ]

     思路讲解:

    1,获取目标地址:http://www.cnblogs.com/ghostwu/ 所有的html内容

    2,提取所有的文章html内容

    3,提取每篇文章下面对应的( 文章标题,超链接,文章摘要,发布时间 )

     1 var http = require('http');
     2 var cheerio = require('cheerio');
     3 
     4 var url = 'http://www.cnblogs.com/ghostwu/';
     5 
     6 function filterHtml(html) {
     7     var $ = cheerio.load(html);
     8     var arcList = [];
     9     var aPost = $("#content").find(".post-list-item");
    10     aPost.each(function () {
    11         var ele = $(this);
    12         var title = ele.find("h2 a").text();
    13         var url = ele.find("h2 a").attr("href");
    14         ele.find(".c_b_p_desc a").remove();
    15         var entry = ele.find(".c_b_p_desc").text();
    16         ele.find("small a").remove();
    17         var listTime = ele.find("small").text();
    18         var re = /d{4}-d{2}-d{2}s*d{2}[:]d{2}/;
    19         listTime = listTime.match( re )[0];
    20         arcList.push({
    21             title: title,
    22             url: url,
    23             entry: entry,
    24             listTime: listTime
    25         });
    26     });
    27     return arcList;
    28 }
    29 
    30 http.get(url, function (res) {
    31     var html = '';
    32     var arcList = [];
    33     // var arcInfo = {};
    34     res.on('data', function (chunk) {
    35         html += chunk;
    36     });
    37     res.on('end', function () {
    38         arcList = filterHtml( html ); 
    39         console.log( arcList );
    40     });
    41 });

    有几个关键的地方要讲解下:

    1,res.on( 'data', function(){} ) 

    http模块发送get请求之后,就会源源不断的抓取目标网页的源代码内容, 所以,我在on中监听data事件, chunk就是传输的数据,把这些数据累加到html这个变量, 当数据传输完之后就会触发end事件,你可以在end事件中打印一下console.log( html ) 就能发现,他就是目标地址的所有html源代码,这样就解决了我们的第一个问题:获取目标地址:http://www.cnblogs.com/ghostwu/ 所有的html内容

    2,有了完整的html内容之后,接下来我封装了一个函数filterHTML用来过滤我所需要的结果( 每篇文章的信息 )

    3,var $ = cheerio.load(html); 把html内容通过cheerio的load方法加载进来,就可以用cheerio的节点操作了,为了亲和jquery的操作,我用美元符号$保存了这个文档对象

    4,var aPost = $("#content").find(".post-list-item"); 这个是所有的文章节点信息,拿到之后,通过each方法 挨个遍历并抓取需要的信息,整理成对象,然后放在一个数组中

    1  arcList.push({
    2 21             title: title,
    3 22             url: url,
    4 23             entry: entry,
    5 24             listTime: listTime
    6 25         });

    这样就处理完了,结果已经在上面展示了,如果博客样式跟我的博客样式一样,应该都能抓取了,

    接着完善分页抓取,这样就能把整个博客爬下来了

     1 var http = require('http');
     2 var cheerio = require('cheerio');
     3 
     4 var url = 'http://www.cnblogs.com/ghostwu/';
     5 
     6 function filterHtml(html) {
     7     var $ = cheerio.load(html);
     8     var arcList = [];
     9     var aPost = $("#content").find(".post-list-item");
    10     aPost.each(function () {
    11         var ele = $(this);
    12         var title = ele.find("h2 a").text();
    13         var url = ele.find("h2 a").attr("href");
    14         ele.find(".c_b_p_desc a").remove();
    15         var entry = ele.find(".c_b_p_desc").text();
    16         ele.find("small a").remove();
    17         var listTime = ele.find("small").text();
    18         var re = /d{4}-d{2}-d{2}s*d{2}[:]d{2}/;
    19         listTime = listTime.match(re)[0];
    20         arcList.push({
    21             title: title,
    22             url: url,
    23             entry: entry,
    24             listTime: listTime
    25         });
    26     });
    27     return arcList;
    28 }
    29 
    30 function nextPage( html ){
    31     var $ = cheerio.load(html);
    32     var nextUrl = $("#pager a:last-child").attr('href');
    33     if ( !nextUrl ) return ;
    34     var curPage = $("#pager .current").text();
    35     if( !curPage ) curPage = 1;
    36     var nextPage = nextUrl.substring( nextUrl.indexOf( '=' ) + 1 );
    37     if ( curPage < nextPage ) crawler( nextUrl );
    38 }
    39 
    40 function crawler(url) {
    41     http.get(url, function (res) {
    42         var html = '';
    43         var arcList = [];
    44         res.on('data', function (chunk) {
    45             html += chunk;
    46         });
    47         res.on('end', function () {
    48             arcList = filterHtml(html);
    49             console.log( arcList );
    50             nextPage( html );
    51         });
    52     });
    53 }
    54 crawler( url );
  • 相关阅读:
    Spring3.2新注解@ControllerAdvice
    Spring读取加密属性文件处理--待整理
    SpringMVC之三:配置Spring MVC Controller
    深入理解DIP、IoC、DI以及IoC容器
    缓存与数据库一致性之三:缓存穿透、缓存雪崩、key重建方案
    Spring容器初始化过程
    Spring框架中的@Import、@ImportResource注解
    @SpringBootApplication注解分析
    Spring bean加载之1:BeanFactory和FactoryBean
    内存使用情况
  • 原文地址:https://www.cnblogs.com/ghostwu/p/7526974.html
Copyright © 2011-2022 走看看