zoukankan      html  css  js  c++  java
  • 数据获取以及处理系统 --- 技术规格说明书

    详细技术说明

    1.  系统架构概述:

    系统主要由两个部分组成: 爬虫数据获取系统以及数据处理系统

    爬虫数据处理就是一个依据源节点网页开展广义优先搜索,定向的查找关键词并且找到文件然后储存在本地,同时将相关信息存入数据库。

    数据处理系统是依靠数据库存储信息对于文件进行关键词提取整理筛选然后存入目标数据库。

    2. 细节描述:

    2.1. 整体框架:

      程序主体服务器由Java实现,Java方面需要实现的内容包含爬虫脚本的控制,各类文件处理模块的组装控制等。
      在其下面具体包含Crawler, pdfReader, docReader, htmlReader, bridge等组件(有待后续更新)

    2.2. 组件描述

    2.2.1 Crawler

      输入为源地址,关键词

      输出为文件集合,用java实现,主要用来实现初始数据的集合的收集

    2.2.2 pdfReader

      输入为文件路径

      输出为从文件中提取的关键信息:关键字、作者、编写时间等

    2.2.3 docReader

      输入为文件路径

      输出为从文件中提取的关键信息:关键字、作者、编写时间等

    2.2.4 htmlReader

      输入为网页链接

      输出为从网页中提取的关键信息:关键字、时间等

    2.2.5 bridge

      不需要输入

      自动将所有文件处理模块得到的信息存储到最终目标位置,例如solr里面

  • 相关阅读:
    MVC布局页占位符@RenderSection("bscript", false)
    HtmlHelp
    MVC 笔记(二)
    mvc 客户端验证
    mvc ajax请求
    mvc 笔记
    mvc 微软票据验证
    内养外调美女养生方
    机械设备维修技术(第2版)(普通高等教育“十一五”国家级规划教材)
    石油特种车载设备结构与维护
  • 原文地址:https://www.cnblogs.com/longweilingshi/p/6003829.html
Copyright © 2011-2022 走看看