zoukankan      html  css  js  c++  java
  • Web风行者的设计方案与计划

    去年(2005年)花了数月的时间写了一个Web Spider。主要集中于功能实现,线程模型,任务自动化,数据攫取方面。在两个月的运行测试中,改正了不少的bug。当时给这个程序起的名字叫"龙龙"(俺是兽族的嘛).龙龙的缺点是完全定制性的控制台程序,对不同的网页必须进行硬编码解析。于是想开发"龙龙2.0",加入规则系统和UI界面。前一阵比较忙,就停下了"龙龙"的开发。现在开始接续龙龙2.0,并为龙龙2.0起一个正式的名字:“Web风行者”。

    “Web风行者”目标是开发一个易用的,可配置规则,可调试规则的html Web数据挖掘系统。规则部分原则上采用XQuery/XPath/XSLT近似的语法,但可能扩展这些语法,使其能够在更细粒度,能够集成文本挖掘,甚至在语义层面进行挖掘。

    “Web风行者”主要考虑易用性和实用性。先将网页解析成XHtml格式,在根据规则从XHtml文件中解析出数据,进行持久化。其结构图初步设想如下:


    Web风行者不开源,计划开发免费版,商用版和Web服务版三种版本。推出时间不定。反正本兽一直不闲着,一有时间就开发。

    注:本来想用C#写的,但是.net这边没找到可用的开源XQuery实现。

    版权所有,欢迎转载
  • 相关阅读:
    链接数据库
    Ajax 密码验证
    for循环 打印菱形 空 和 实
    for 循环 正方形
    面向对象
    用正则表达式 匹配手机号码
    正则表达式
    js 中 == 和=== 有什么区别?
    js 删除
    封装函数增删改查
  • 原文地址:https://www.cnblogs.com/xiaotie/p/329269.html
Copyright © 2011-2022 走看看