zoukankan      html  css  js  c++  java
  • Web风行者的设计方案与计划

    去年(2005年)花了数月的时间写了一个Web Spider。主要集中于功能实现,线程模型,任务自动化,数据攫取方面。在两个月的运行测试中,改正了不少的bug。当时给这个程序起的名字叫"龙龙"(俺是兽族的嘛).龙龙的缺点是完全定制性的控制台程序,对不同的网页必须进行硬编码解析。于是想开发"龙龙2.0",加入规则系统和UI界面。前一阵比较忙,就停下了"龙龙"的开发。现在开始接续龙龙2.0,并为龙龙2.0起一个正式的名字:“Web风行者”。

    “Web风行者”目标是开发一个易用的,可配置规则,可调试规则的html Web数据挖掘系统。规则部分原则上采用XQuery/XPath/XSLT近似的语法,但可能扩展这些语法,使其能够在更细粒度,能够集成文本挖掘,甚至在语义层面进行挖掘。

    “Web风行者”主要考虑易用性和实用性。先将网页解析成XHtml格式,在根据规则从XHtml文件中解析出数据,进行持久化。其结构图初步设想如下:


    Web风行者不开源,计划开发免费版,商用版和Web服务版三种版本。推出时间不定。反正本兽一直不闲着,一有时间就开发。

    注:本来想用C#写的,但是.net这边没找到可用的开源XQuery实现。

    版权所有,欢迎转载
  • 相关阅读:
    肥胖儿筛选标准
    文章索引
    面向对象66原则
    [精]Xpath路径表达式
    [精]XPath入门教程
    孕产期高危因素
    “华而不实”的转盘菜单(pie menu)
    xmind用例导excel用例,然后再用python排版
    NSObject
    [self class]与[super class]
  • 原文地址:https://www.cnblogs.com/xiaotie/p/329269.html
Copyright © 2011-2022 走看看