zoukankan      html  css  js  c++  java
  • [大数据]数据预处理

    1.字符串操作:

    解析身份证号:生日、性别、出生地等。

       地址码: 表示编码对象常住户口所在县(市、旗、区)的行政区划代码。

      出生日期码:表示编码对象出生的年、月、日,年、月、日代码之间不用分隔符,格式为YYYYMMDD,如19880328。

      顺序码: 表示在同一地址码所标识的区域范围内,对同年、同月、同日出生的人编定的顺序号,顺序码的奇数分配给男性,偶数分配给女性。

      校验码: 根据本体码,通过采用ISO 7064:1983,MOD 11-2校验码系统计算出校验码。前面有提到数字校验码,我们知道校验码也有X的,实质上为罗马字符X,相当于10.

    凯撒密码编码与解码

            凯撒加密(Caesar cipher)是一种简单的消息编码方式:它根据字母表将消息中的每个字母移动常量位k。举个例子如果k等于3,则在编码后的消息中,每个字母都会向前移动3位:a会被替换为d;b会被替换成f;依此类推。字母表末尾将回卷到字母表开头。于是,w会被替换为z, x会被替换为a。在解码消息的时候,每个字母会反方向移动同样的位数。

    网址观察与批量生成
              像学校官网在新闻模块,每一页都有相对应在html页面,比如第一页,网址就为:http://news.gzcc.cn/html/xiaoyuanxinwen/1.html 以此类推。可以直接使用for循环输出网址。

            for i in range(1,6):
            url='http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html'.format(i)
            print(url)

    2.英文词频统计预处理

    首先我先在把文章先放在编译器先执行一遍

    结果如图:

    然后在把这些文章放在E盘中进行文件读取操作,代码如图:

    看起来确实简便了很多,结果如图:

    此次进行文件操作在结果与上面在图一样,说明我的文件操作没有错误。

  • 相关阅读:
    Analysis Services features supported by SQL Server editions
    Azure DevOps to Azure AppServices
    Power BI For Competition
    Win10开机“提示语音”以及”随机播放音乐”
    Azure DevOps
    Allow Only Ajax Requests For An Action In ASP.NET Core
    Mobile CI/CD 101
    Configure SSL for SharePoint 2013
    AWS Step Function Serverless Applications
    Cordova Upload Images using File Transfer Plugin and .Net core WebAPI
  • 原文地址:https://www.cnblogs.com/hongna/p/10469173.html
Copyright © 2011-2022 走看看