zoukankan      html  css  js  c++  java
  • crawler_解析之_jquery_语法选择器使用方法

    爬虫解析一般使用 正则或者给予样式的 jquery语法选择器

    正则是根本,类比jsoup基于dom,底层也有部分是基于正则实现的,linux操作系统

    文本处理也是借助强大的正则体现的 。关于正则 请参考 《正则指引》书 。

    正则基本语法 :http://cphmvp.diandian.com/post/2012-07-31/40032077081

    搜索爬虫常用正则:http://cphmvp.diandian.com/post/2012-11-10/40041792417

    正则的调试工具有很多,推荐个 RegexBuddy 。 这里就不多做介绍了或者后续补充 。

    今天着重讲下 jsoup,近期做了一千多个站点,主要依靠jsoup,jquery的语法选择器恶补了下(其实用到的也不多)

    跟xpath 相似,写时可以借助 firefox的插件自动生成 。

    个人写了个 cssQuery语法选择器的帮助工具 :下载地址:http://pan.baidu.com/s/1eQ1NfrW 

    1:支持自动生成下一页query 规则生成 

    2: 支持源码获取 ,自动刷新支持

    3: 匹配结果查看 

  • 相关阅读:
    Java速成笔记
    C语言学习笔记
    形式语义05 Semantics
    密码学04 PRG&PRF
    形式语义04 Types
    密码学03 Computational
    形式语义03 Lambda
    密码学02 Perfect
    形式语义01 Intro
    密码学01 Intro
  • 原文地址:https://www.cnblogs.com/cphmvp/p/3606293.html
Copyright © 2011-2022 走看看