HTML解析器项目进展和新的构思

zoukankan html css js c++ java

HTML解析器项目进展和新的构思

         这个解析器只是作为个人爱好去研究，陆陆续续的投入精力，持续了很长时间，这期间发生了很多的事情。我在上海落脚很长时间后才又继续开发，并把项目命名为Wittiness。

         项目的目的：构建一个Web信息挖掘机，能够高效方便的从网页中截取到需要的信息。

         构建思路是：解析HTML标记   --> 构建层次对象 --> 查询获取承载了需要信息的对象 --> 按对象层次输出结果

        其中难度比较大的就是解析标记和查询获取对象。解析标记我用过了正则表达式，字符串判断，SgmlReader，最好觉得SgmlReader用起来简单，效率也高。查询获取对象，目前实现的主要方法是以表为单位，按索引数来获得，这一块花的时间也比较少。

       新的想法：把HTML拆开读取为string[] 单位为一个HTML标记，用两个数组指针来确定要截取的部分，以个从头开始检索，一个从尾开始检索，这样能很好的解决标记配对的问题。在构造对象层次结构时候也只用数组指针，我想这样应该能提供效率和节约内存。再往后，可以把这个方法改进为流式处理，那么在读取大文件的时候效率就更高了。

         如果能有一个GUI的界面来让用户选择需要截取的内容，那么操作就更加方便了，不知道，象DreamWeaver这样的编辑器是怎么样开发的。

查看全文

相关阅读:
oracle一些常用的单记录函数
 javascript闭包（closure）
【Matlab开发】matlab中bar绘图设置与各种距离度量
 【Matlab开发】matlab中bar绘图设置与各种距离度量
 【Matlab开发】matlab中norm范数以及向量点积、绘图设置相关
 【Matlab开发】matlab中norm范数以及向量点积、绘图设置相关
 【编程开发】opencv实现对Mat中某一列或某一行的元素进行normalization
【编程开发】opencv实现对Mat中某一列或某一行的元素进行normalization
【编程开发】C语言中随机数rand使用注意事项
 【编程开发】C语言中随机数rand使用注意事项

原文地址：https://www.cnblogs.com/format/p/343854.html