zoukankan      html  css  js  c++  java
  • 第十周

    老师意见:

    1. 加 数据预测 也就是一个数据挖掘结果的应用场景
    2. 图形的钻取
    3. 多种图的联动
    4. 数据的联动 数据表格加图形

    这周进度:

      清洗数据,筛选出企业名称,将公告界面与后台交互

      清洗记录如下:

    以10429条数据为依据,初步分析

    1.首先分为两大类是公告原文是一二三格式//9767,和1、2、格式的//662
    2.其次中标供应商表现形式有直接冒号给出,或者是表格形式

    (1)一二三格式的,中标供应商包含在中标信息中,且表现形式为冒号
    首先处理的就是中标信息四五的问题。
    这个时候,又出现一种情况,冒号有时候为中文有时候为英文,有时候后面会有空格,有时候没有
    有的数据本身就有错误,中标公司为人名李献忠
    空白不是空格
    中标公司不是一个
    有的中标公司后面没有跟地址
    截取的后面有杂质:如下
    北京拓尔思信息技术股份有限公司,联系地址:北京市海淀区知春路6号(锦秋国际大厦)14层14B04,中标金额人民币大写贰佰玖拾捌万伍仟元整(小写:2985000.00元)。

    ·trim()去除字符串开头结尾的空格,不会去除字符串中的空格

    空格去除不了
    ·正则表达处理个空格也费劲。
     
    刚遇到一个空格,用正则表达\s死活replace不掉,trim也没辙,空格那个char转成int一看,是160,特么空格不是32么。
     
    查了一下,要用以下方式去除:
    String.replaceAll("\u00A0","")
     
     
    坑爹。。 另外查了一下, 貌似IE和Firefox对这个东西的处理也有差异,同志们还是用32的空格吧。。
     
    还有,保存文件的时候要去除非法字符,用以下:
    String.replaceAll("[:\\/*"?|<>']", "")
     

    (2)表格
    并不全是中标供应商名称还有入围供应商,这个记录应该去掉

  • 相关阅读:
    POJ 1681 Painter's Problem(高斯消元法)
    HDU 3530 Subsequence(单调队列)
    HDU 4302 Holedox Eating(优先队列或者线段树)
    POJ 2947 Widget Factory(高斯消元法,解模线性方程组)
    HDU 3635 Dragon Balls(并查集)
    HDU 4301 Divide Chocolate(找规律,DP)
    POJ 1753 Flip Game(高斯消元)
    POJ 3185 The Water Bowls(高斯消元)
    克琳:http://liyu.eu5.org
    WinDbg使用
  • 原文地址:https://www.cnblogs.com/wf1647790534/p/10038026.html
Copyright © 2011-2022 走看看