zoukankan      html  css  js  c++  java
  • HTML解析器 2004年12月7日 星期二

            今天已经是有做HTML解析器的想法好几天了,一开始是一个朋友要我帮忙处理下从网页上的表格中获取信息,然后分项保存到数据库中,实现数据本地化。一开始就打算好好做一个,以后也可以通用,经过一个多星期的资料收集和试验,现在分析器的雏形已经出来了。
            在一开始的时候打算直接用.NET中字符处理的方法来做,但过于复杂和麻烦,而且效率不高;然后有想到把HTML当做XML用XML相关的类来解析,但HTML的语法比较松散;还试过SgmlReader,这个东西的解析也不够满意。最后觉得用正则表达式来做(我学习了5天,已经深入到自动机的理论),选用的原因:
               一、 效率高;
                二、 容错性好。应为HTML没有XML那样严格的语法规范,HTML要松散些。
            但正则表达式有个缺点,如果要匹配最近的<td></td>正则表达式要相当复杂,而且我也没有研究出来。我的解决办法是象Table用Match匹配出文字,然后用Match的index获得匹配的位置,再用SubString方法取得值字符串。效果还不错哦。

            现在遇到的问题:如果Table中包含Table那么对TR的分解将出来错误。

  • 相关阅读:
    linux MySQL 初始化数据库
    linux 建立 MySQL 账号
    linux MySQL 安装
    Background-Size
    .net文件压缩和解压及中文文件夹名称乱码问题
    C# 浅拷贝与深拷贝区别
    移动端手势库hammerJS 2.0.4官方文档翻译
    期待已久的2012年度最佳jQuery插件揭晓
    Hammer.js
    jQuery Validate验证框架详解
  • 原文地址:https://www.cnblogs.com/format/p/74032.html
Copyright © 2011-2022 走看看