有趣的Node爬虫，数据导出成Excel

zoukankan html css js c++ java

有趣的Node爬虫，数据导出成Excel
　　最近一直没更新了诶，因为学习Backbone好头痛，别问我为什么不继续AngularJs~因为2.0要出来了啊，妈蛋！好，言归正传，最近帮我的好基友扒数据，他说要一些股票债券的数据。我一听，那不就是要做爬虫了么...果断用Node做！（其实也有一个股票数据API，sina提供的，但是由于不适用于债券，没办法，只好自己动手丰衣足食了）

　　工欲善其事，必先利其器嘛，蓬勃的Node社区提供了非常多的好的工具，下面我列出将要使用的工具：
1. request，封装了Node的原生的http模块，使API更加简洁明了。
2. cheerio，简化的jQuery库，可以让你操作DOM事半功倍。
3. node-xlsx，Node平台上非常好用的读写xlsx的插件。
4. fs，Node自带的文件操作的模块
　　这次，因为是一个入门教程，涉及到的东西当然也就不多。比如对时间格式化的moment插件，还有对傻（哔！）的GBK和gb2312编码解码的插件iconv-lite，这些都是非常好的东西，可以帮助大家更快更舒服的构建自己所需要的东西。所以就要求如何更快的学习阅读API。（当然英文要好啊擦！）

　　首先就是通过npm加载node_modules，你可以一个个加载(npm install request)，也可以在npm的package.json里的dependencies一次性npm install加载。相信大家都已经耳熟能详啦，就不再赘述啦！（不知道的赶紧去补啊擦）

　　然后我们的爬虫之旅就开始了，首先，当然就是各种require。

　　然后指定一个URL，供request去发送请求。就像下面一样，这是一个异步的函数，回调函数的三个参数当然很好理解啦。

　　重点是在body上，body是将整个url的html文档解析并存入body中。如果用http.on("data")，可麻烦啦。这下可好，已经帮你封装妥当。当我们有一个DOM文档，最想干的事情当然就是，操作DOM啊！这时cheerio就派上场了，它可以像jQuery一般操作文档。我们来看一下，怎么做的。

　　

　　是不是十分的简单易懂呢，之后我们就可以对body尽情的揉捏了。通过jQuery的选择器，获取特定的DOM上的值，然后保存起来。最后来说一说，如何将保存后的值，转化成一个Excel表格，也就是xlsx格式的文件。

　　node-xlsx是通过操作一个数组，然后数组里面通过不同的对象来指定Excel的sheets，然后对象里面有各种属性，如data属性和name属性，一个是放数据的，一个是指定sheets的名称的，若不填则默认为Sheet。若存在多个同名Sheet，则会使用后一个，所以name属性，没事就加上吧~。data属性是精华，通过二维数组来确定行列。光说无益，来看一下代码。

　　当把数据准备妥当后，便是通过fs模块的 writeFileSync 写入文件，参数分别为（文件名，文件数据，options选项）。最后node一执行，就可以导出文件了。可以查看一下成果。

　　嗯，妥妥的！

　　当然国内大部分坑爹的gb2312，就没那么简单咯。这里留个坑~~因为我在buffer这一块，也没弄懂~~。
查看全文

相关阅读:
nhibernate的不支持
 iis7部署mvc2
如何获取一张表的字段名
 HttpHandler与HttpModule
json中含有HTML标签
 hql实现select new Type(column) from table
数据库优化工具及如何进行优化
 ios MJExtension 数据解析转换
 阻止表中出现重复项——SQL UNIQUE 约束
 java IO 之流的总结篇(图)

原文地址：https://www.cnblogs.com/YikaJ/p/4261235.html