zoukankan      html  css  js  c++  java
  • Web风行者的设计方案与计划

    去年(2005年)花了数月的时间写了一个Web Spider。主要集中于功能实现,线程模型,任务自动化,数据攫取方面。在两个月的运行测试中,改正了不少的bug。当时给这个程序起的名字叫"龙龙"(俺是兽族的嘛).龙龙的缺点是完全定制性的控制台程序,对不同的网页必须进行硬编码解析。于是想开发"龙龙2.0",加入规则系统和UI界面。前一阵比较忙,就停下了"龙龙"的开发。现在开始接续龙龙2.0,并为龙龙2.0起一个正式的名字:“Web风行者”。

    “Web风行者”目标是开发一个易用的,可配置规则,可调试规则的html Web数据挖掘系统。规则部分原则上采用XQuery/XPath/XSLT近似的语法,但可能扩展这些语法,使其能够在更细粒度,能够集成文本挖掘,甚至在语义层面进行挖掘。

    “Web风行者”主要考虑易用性和实用性。先将网页解析成XHtml格式,在根据规则从XHtml文件中解析出数据,进行持久化。其结构图初步设想如下:


    Web风行者不开源,计划开发免费版,商用版和Web服务版三种版本。推出时间不定。反正本兽一直不闲着,一有时间就开发。

    注:本来想用C#写的,但是.net这边没找到可用的开源XQuery实现。

    版权所有,欢迎转载
  • 相关阅读:
    最新国家标准下载(2020-7-31)
    SL/T 264-2020 水利水电工程岩石试验规程
    SH/T 3082-2019 石油化工仪表供电设计规范
    GB/T 4780-2020 汽车车身术语
    Java——冒泡排序
    JSP处理XML数据
    JSP标准标签库(JSTL)
    千锤百炼软工第十九天
    千锤百炼软工第十八天
    千锤百炼软工第十七天
  • 原文地址:https://www.cnblogs.com/xiaotie/p/329269.html
Copyright © 2011-2022 走看看