zoukankan      html  css  js  c++  java
  • Alpha版本发布说明

    项目名称

    Pipeline

    项目版本

    Alpha版本

    负责人

    北京航空航天大学计算机学院 C705团队

    联系方式

    http://www.cnblogs.com/C705/

    发布日期

    2014-11-23

     
    更新内容: 
     1.修复缺陷:
      a)中英文分词算法改进
      b)提取文档信息改进
      c)提取关键词结构优化
      d)修复与爬虫数据库数据交互问题
      e)修复无法找到文件时出错问题
      f)修复错误标签存在的问题
      g)修复数据库连接没有close导致崩溃的问题
     
    2.新功能:
      a)支持对pdf的信息提取
        下面的两个图中,左边是pdf源文件的内容,右边是进行转换后输出的txt文件的内容,可以看出,txt文件保留了pdf的分段、提行信息。
        
     
      b)支持对word文档的信息提取
         下面以数据库课程设计要求文档展示word转换为txt的效果。
         这是word中的目录页:
         
                    后面的内容:
     
       c)支持对电子表格的信息提取:
            
          转换后,基本上能够保持原表格的结构:
                     
     
    环境要求: 
     

    操作系统需求

    Windows操作系统

    运行环境需求

    数据库需求

    需配置数据库到Windows(或Windows   server)数据源中,数据库名为crawler

     
     
     
     
     
     
     
    安装方法:
      直接解压安装,在PipelinePipelineinDebug文件夹中找到Pipeline.exe可以打开程序。
     
    系统已知的问题和限制:
       a)爬取文件名和文件所在路径不能过长
       b)无效字符的无法处理
       c)数据库与文件信息不匹配会出现异常
       d)文件中图片信息无法提取
     
    软件的发布方式以及发布地址:
      代码发布在服务器219.224.191.25上,可下载使用。
  • 相关阅读:
    BladeX部署说明(win7)
    vmware安装gho系统(win10上安装虚拟机然后在vmware上安装win7)
    Windows下mysql忘记root密码的解决方法
    三星(SAMSUNG)910S3L-K04 安装win7的BIOS设置
    delphi7 编译程序时报win32.indcu.a病毒的解决方法
    无法远程到2008R2的解决方法
    触发器学习
    centos6.5安装mongodb2.6
    02_Linux学习_命令
    C#逻辑面试题汇总【不断更新中】
  • 原文地址:https://www.cnblogs.com/C705/p/4111320.html
Copyright © 2011-2022 走看看