crawler 使用jQuery风格实现

zoukankan html css js c++ java

crawler 使用jQuery风格实现
以前写过java版的crawler，最近看了Groovy的XmlSlurper，效果还是不太满意，直到这篇文章启发了我：how-to-make-a-simple-web-crawler-in-javascript-and-node-js。于是就想到使用jQuery风格的js来解析html并获取数据，把这样的js碎片逻辑作为配置从而支持更灵活的自定义。
crawler的原始构思及说明：
- crawlConfig，配置crawler：crawl=code.js，新配置的js脚本需要人工审核之后才能用于crawlData执行
  获取所有a标签的href属性的配置，demo.a[href]，
- html/get，获取html内容并缓存到redis
  暂时没有使用phantom.js等技术，普通的http get就能满足大部分需求
- crawlData，执行crawler对应的code.js，新配置的js脚本需要人工审核之后才能用于crawlData执行
  获取页面超链接：demo.a[href]，
  获取页面图片地址：demo.img[src]，
由于crawl是比较敏感的代码，因此本站只开放了crawlConfig、crawlData体验功能（自定义code.js需要审核）。同时还实现了车次信息获取的功能。
- crawlData，恰好本站博客是基于node.js的ourjs，下面是code.js的执行逻辑：直接调用eval(code)，因此自定义代码需要审核！
  
  html=obj.substring(7)，是由于老代码使用了默认的JdkSerializationRedisSerializer。
  crawlData，其实相当于crawler的一个step被执行，而多个step的有序组合就构成了一个完整的crawler。
- saveData，本站做了一个完整的crawler，因此data需要相应的设计：urls返回后续step的网址列表，data返回数据并按key的规则存入redis
  crawl = {
  "urls": ["url", "url"],
  "data": ["set_{key}": obj, "hset_{map}_{key}": obj]
  }
- 如何使用数据：后续……
查看全文

相关阅读:
css 计数器
 页面自动刷新的几种方式
 jq的“钉”插件--jquery.pin.js
CSS3之Transform（变形）一
 css3之Transition(转换)
常用css+css3集锦
 JQuery需要手动回收xmlHttpRequest对象
 javascript 闭包暴露句柄和命名冲突的解决方案
 firefox浏览器删除插件
 jQuery中的.bind()、.live()和.delegate()之间区别分析

原文地址：https://www.cnblogs.com/xingqi/p/11108291.html