zoukankan      html  css  js  c++  java
  • 【大数据】字符串、文件操作,英文词频统计预处理

    作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2646

    1.字符串操作:

    • 解析身份证号:生日、性别、出生地等。
    add_num = {'440116':'罗岗区','440106':'天河区','440103':'荔湾区','440104':'越秀区','440105':'海珠区','440111':'白云区',
               '440183':'增城区','440112':'黄埔区','440113':'番禺区','440114':'花都区','440115':'南沙区'}
    id = input('请输入身份证号码:')
    birth_year = id[6:10]
    birth_month = id[10:12]
    birth_day = id[12:14]
    sex = id[16]
    if int(sex)%2 == 0:
        sex=''
    else:
        sex=''
    print('您输入的身份证号码是(广州市):{}'.format(id))
    print('出生地编码:{}
    出生时间:{}年{}月{}日
    性别:{}'.format(add_num[id[0:6]],birth_year,birth_month,birth_day,sex))

    ps:这是一个乱编的身份证号码

    • 凯撒密码编码与解码

    在密码学中,恺撒密码是一种最简单且最广为人知的加密技术。它是一种替换加密的技术,明文中的所有字母都在字母表上向后(或向前)按照一个固定数目进行偏移后被替换成密文。例,当偏移量是3的时候,所有的字母A将被替换成D,B变成E,以此类推。

    text =input('输入需要加密的单词:')
    str=''
    text = text.lower()
    for i in range(len(text)):
        text.split()
        if(ord(text[i]) >= 97 and ord(text[i]) <= 122):
            str = str + (chr(ord(text[i])+3))
        else:
            str = str + text[i]
    print(str)

    • 网址观察与批量生成
    for i in range(2,6):
        url='http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html'.format(i)
        print(url)

    2.英文词频统计预处理

    • 下载一首英文的歌词或文章或小说,保存为utf8文件。
    • 从文件读出字符串。
    • 将所有大写转换为小写
    • 将所有其他做分隔符(,.?!)替换为空格
    • 分隔出一个一个的单词
    • 并统计单词出现的次数。
    f = open('MyFather.txt',mode='r',encoding='utf-8')
    text = f.read()
    f.close()
    text = text.lower()
    sep = ',.?!;:_'
    for s in sep:
        text = text.replace(s,' ')
    print(text.split())
    print(text.count('father'),text.count('he'))

  • 相关阅读:
    java 可变參数列表
    Java -Xms -Xmx -Xss -XX:MaxNewSize -XX:MaxPermSize含义记录
    hdu 4939
    什么是堆和栈,它们在哪儿?
    PPAPI插件与浏览器的通信
    Java&amp;Xml教程(十一)JAXB实现XML与Java对象转换
    Heavy Transportation
    Python学习笔记-小记
    C/C++知识要点5——智能指针原理及自己定义实现
    小米2S电池电量用尽充电无法开机解决方法
  • 原文地址:https://www.cnblogs.com/Richard-V/p/10477717.html
Copyright © 2011-2022 走看看