zoukankan      html  css  js  c++  java
  • Node & Cheerio & WebStorm 学习实验

    准备用cheerio去抓一些网页看看。

    可以参考的材料有:

    http://www.cnblogs.com/CraryPrimitiveMan/p/3674421.html

    http://cnodejs.org/topic/5203a71844e76d216a727d2e

    首先打开WebStorm,新建一个空项目,名为HelloWorld,然后在主目录新建一个HelloWorld.js,内容

    console.log("Hello World");

    然后直接Run,命令行会自动调用node命令来运行:

    /usr/local/bin/node /Users/baidu/Documents/Data/Work/Code/Self/nodejs/helloworld/HelloWorld.js
    Hello World!
    
    Process finished with exit code 0

    主要是看这个url上面的例子:

    http://www.cnblogs.com/CraryPrimitiveMan/p/3674421.html

    先安装一下cheerio

    npm install cheerio

    先写了个curl.js,代码如下:

    /**
     * Created by baidu on 16/10/17.
     */
    var http = require("http");
    
    function download(url, callback) {
        var data = '';
        http.get(url, function(res) {
            res.on('data', function(chunk) {
                data += chunk;
            });
            res.on('end', function () {
                callback(data);
            });
        }).on('error', function () {
            callback('error');
        })
    }
    
    exports.download = download;

    然后主程序HelloWorld.js中引用该函数:

    /**
     * Created by baidu on 16/10/17.
     */
    
    console.log("Hello World");
    
    var cheerio = require('cheerio');
    var curl = require('./curl');
    var iconv = require('iconv-lite');
    
    var url = 'http://open.163.com/special/opencourse/englishs1.html';
    
    curl.download(url, function (data) {
        if (data) {
            var $ = cheerio.load(data);
            $('a.downbtn').each(function (i, e) {
                var str = $(e).attr('data-name');
                console.log(str);
            });
            console.log('done');
        }
        else {
            console.log('error');
        }
    });

    但是结果都是乱码。。

    上网查发现需要使用 iconv-lite 包,在引入这个包之后:

    var str = $(e).attr('data-name');
    str = iconv.decode(str, 'gbk');

    发现报错,并且提示查阅:

    https://github.com/ashtuchkin/iconv-lite/wiki/Use-Buffers-when-decoding

    原来是在 data += chunk的时候,已经发生的默认针对utf-8的转码,使得文字的码发生了混乱。

    按照上文中给出的例子,使用chunks数组存数组,然后使用Buffer.concat合并数组的内容。修改了以上两个文件的代码,curl.js:

    /**
     * Created by baidu on 16/10/17.
     */
    var http = require("http");
    
    function download(url, callback) {
        var chunks = [];
        http.get(url, function(res) {
            res.on('data', function(chunk) {
                chunks.push(chunk);
            });
            res.on('end', function () {
                callback(chunks);
            });
        }).on('error', function () {
            callback(chunks);
        })
    }
    
    exports.download = download;

    HelloWorld.js:

    /**
     * Created by baidu on 16/10/17.
     */
    
    console.log("Hello World");
    
    var cheerio = require('cheerio');
    var curl = require('./curl');
    var iconv = require('iconv-lite');
    
    var url = 'http://open.163.com/special/opencourse/englishs1.html';
    
    curl.download(url, function (chunks) {
        if (chunks) {
            var data = iconv.decode(Buffer.concat(chunks), 'gbk');
            var $ = cheerio.load(data);
            $('a.downbtn').each(function (i, e) {
                var str = $(e).attr('data-name');
                console.log(str);
            });
            console.log('done');
        }
        else {
            console.log('error');
        }
    });

    然后运行,得到如下结果:

    /usr/local/bin/node /Users/baidu/Documents/Data/Work/Code/Self/nodejs/helloworld/HelloWorld.js
    Hello World
    新西兰国立南方理工学院公开课:英语强化课程I > be动词、冠词、指示代词、情态动词、一般现在时
    新西兰国立南方理工学院公开课:英语强化课程I > 可数名词、不可数名词、不定代词、形容词比较级、最高级、一般过去时、现在进行时
    新西兰国立南方理工学院公开课:英语强化课程I > 形态动词、疑问词、常用的时间短语
    新西兰国立南方理工学院公开课:英语强化课程I > 如何询问价格和质量、疑问句词序、人称代词如何配搭动词、不同时态中的时间短语
    新西兰国立南方理工学院公开课:英语强化课程I > 过去式中动词的用法、如何使用定冠词
    新西兰国立南方理工学院公开课:英语强化课程I > 动名词、一般现在时与一般过去时中的被动语态、过去完成时、虚拟条件句
    新西兰国立南方理工学院公开课:英语强化课程I > 四种形态的助动词、一般现在时、现在进行时、规则动词与不规则动词、现在完成时、现在完成进行时
    新西兰国立南方理工学院公开课:英语强化课程I > 将来时、将来时从句、特殊形容词、主动句与被动句、礼貌请求用语
    新西兰国立南方理工学院公开课:英语强化课程I > 预测、过去完成时、间接引语、义务和许可、虚拟语气
    新西兰国立南方理工学院公开课:英语强化课程I > 各种动词形式、助动词、名词后缀、形容词后缀、单词前缀、陈述句、现在进行时
    新西兰国立南方理工学院公开课:英语强化课程I > be动词、冠词、指示代词、情态动词、一般现在时
    新西兰国立南方理工学院公开课:英语强化课程I > 可数名词、不可数名词、不定代词、形容词比较级、最高级、一般过去时、现在进行时
    新西兰国立南方理工学院公开课:英语强化课程I > 形态动词、疑问词、常用的时间短语
    新西兰国立南方理工学院公开课:英语强化课程I > 如何询问价格和质量、疑问句词序、人称代词如何配搭动词、不同时态中的时间短语
    新西兰国立南方理工学院公开课:英语强化课程I > 过去式中动词的用法、如何使用定冠词
    新西兰国立南方理工学院公开课:英语强化课程I > 动名词、一般现在时与一般过去时中的被动语态、过去完成时、虚拟条件句
    新西兰国立南方理工学院公开课:英语强化课程I > 四种形态的助动词、一般现在时、现在进行时、规则动词与不规则动词、现在完成时、现在完成进行时
    新西兰国立南方理工学院公开课:英语强化课程I > 将来时、将来时从句、特殊形容词、主动句与被动句、礼貌请求用语
    新西兰国立南方理工学院公开课:英语强化课程I > 预测、过去完成时、间接引语、义务和许可、虚拟语气
    新西兰国立南方理工学院公开课:英语强化课程I > 各种动词形式、助动词、名词后缀、形容词后缀、单词前缀、陈述句、现在进行时
    新西兰国立南方理工学院公开课:英语强化课程I > 复习四种时态、一般现在时、完成时、冠词、关系代词、量词、动名词、不定式、连词
    新西兰国立南方理工学院公开课:英语强化课程I > 情态动词及其过去式、将来时、将来进行时、将来完成时、虚拟语气及其过去式、间接引语
    done
    
    Process finished with exit code 0
  • 相关阅读:
    Android 70道面试题汇总不再愁面试
    TOMCAT用Https替换Http的方法
    Struts2+Spring3+Hibernate3配置全过程
    javac 无效标签
    hibernate
    数据库命令行启动
    Tomcat检测程序
    SQL
    Unsupported major.minor version 49.0的错误解决
    ImportError: No module named pysqlite2
  • 原文地址:https://www.cnblogs.com/charlesblc/p/5970057.html
Copyright © 2011-2022 走看看