zoukankan      html  css  js  c++  java
  • 第十周

    老师意见:

    1. 加 数据预测 也就是一个数据挖掘结果的应用场景
    2. 图形的钻取
    3. 多种图的联动
    4. 数据的联动 数据表格加图形

    这周进度:

      清洗数据,筛选出企业名称,将公告界面与后台交互

      清洗记录如下:

    以10429条数据为依据,初步分析

    1.首先分为两大类是公告原文是一二三格式//9767,和1、2、格式的//662
    2.其次中标供应商表现形式有直接冒号给出,或者是表格形式

    (1)一二三格式的,中标供应商包含在中标信息中,且表现形式为冒号
    首先处理的就是中标信息四五的问题。
    这个时候,又出现一种情况,冒号有时候为中文有时候为英文,有时候后面会有空格,有时候没有
    有的数据本身就有错误,中标公司为人名李献忠
    空白不是空格
    中标公司不是一个
    有的中标公司后面没有跟地址
    截取的后面有杂质:如下
    北京拓尔思信息技术股份有限公司,联系地址:北京市海淀区知春路6号(锦秋国际大厦)14层14B04,中标金额人民币大写贰佰玖拾捌万伍仟元整(小写:2985000.00元)。

    ·trim()去除字符串开头结尾的空格,不会去除字符串中的空格

    空格去除不了
    ·正则表达处理个空格也费劲。
     
    刚遇到一个空格,用正则表达\s死活replace不掉,trim也没辙,空格那个char转成int一看,是160,特么空格不是32么。
     
    查了一下,要用以下方式去除:
    String.replaceAll("\u00A0","")
     
     
    坑爹。。 另外查了一下, 貌似IE和Firefox对这个东西的处理也有差异,同志们还是用32的空格吧。。
     
    还有,保存文件的时候要去除非法字符,用以下:
    String.replaceAll("[:\\/*"?|<>']", "")
     

    (2)表格
    并不全是中标供应商名称还有入围供应商,这个记录应该去掉

  • 相关阅读:
    31天重构学习笔记23. 引入参数对象
    31天重构学习笔记31. 使用多态代替条件判断
    31天重构学习笔记25. 引入契约式设计
    新加坡面试经历
    Release a AutoUpdater tool
    31天重构学习笔记24. 分解复杂判断
    31天重构学习笔记29. 去除中间人对象
    自动更新组件分享
    WPF基础到企业应用系列7——深入剖析依赖属性(WPF/Silverlight核心)
    (收藏)2010年度十大杰出IT博客
  • 原文地址:https://www.cnblogs.com/wf1647790534/p/10038026.html
Copyright © 2011-2022 走看看