HTML解析器 2004年12月7日星期二 - 走看看

zoukankan html css js c++ java

HTML解析器 2004年12月7日星期二

        今天已经是有做HTML解析器的想法好几天了，一开始是一个朋友要我帮忙处理下从网页上的表格中获取信息，然后分项保存到数据库中，实现数据本地化。一开始就打算好好做一个，以后也可以通用，经过一个多星期的资料收集和试验，现在分析器的雏形已经出来了。
        在一开始的时候打算直接用.NET中字符处理的方法来做，但过于复杂和麻烦，而且效率不高；然后有想到把HTML当做XML用XML相关的类来解析，但HTML的语法比较松散；还试过SgmlReader，这个东西的解析也不够满意。最后觉得用正则表达式来做（我学习了5天，已经深入到自动机的理论），选用的原因：
           一、效率高；
            二、容错性好。应为HTML没有XML那样严格的语法规范，HTML要松散些。
        但正则表达式有个缺点，如果要匹配最近的<td></td>正则表达式要相当复杂，而且我也没有研究出来。我的解决办法是象Table用Match匹配出文字，然后用Match的index获得匹配的位置，再用SubString方法取得值字符串。效果还不错哦。

        现在遇到的问题：如果Table中包含Table那么对TR的分解将出来错误。

查看全文

相关阅读:
PAT 甲级 1027 Colors in Mars
PAT 甲级 1026 Table Tennis（模拟）
PAT 甲级 1025 PAT Ranking
PAT 甲级 1024 Palindromic Number
PAT 甲级 1023 Have Fun with Numbers
PAT 甲级 1021 Deepest Root (并查集，树的遍历)
Java实现蓝桥杯VIP 算法训练无权最长链
 Java实现蓝桥杯VIP 算法训练无权最长链
 Java实现蓝桥杯算法提高抽卡游戏
 Java实现蓝桥杯算法提高抽卡游戏

原文地址：https://www.cnblogs.com/format/p/74032.html

Copyright © 2011-2022 走看看