因为涉及敏感信息,原数据就不push到网上了,直接上代码:
第一步导入库:
1 import numpy as np 2 import pandas as pd
第二步自建数据录入,这一步脱敏了:
1 # 硬输入的话一定注意不要出现中文标点,否则会报错。 2 list = [["***",300,"微信"],["***",200,"微信"],["***",100,"微信"],["***",200,"微信"],["***",200,"微信"],["张娅玲",100,"微信"], 3 ["***",100,"微信"],["***",100,"微信"],["***",100,"微信"],["***",100,"微信"],["***",100,"微信"],["***",100,"微信"], 4 ["***",501,"***"],["***",100,"微信"],["***",100,"微信"],["***",50,"微信"],["***",100,"微信"], 5 ["***",100,"***"]]
第三步转为numpy.array:
1 # 将list转化为numpy.array,方便处理。 2 list = numpy.array(list)
第四步修改列名为中文,继续脱敏:
1 # 修改列名,可以是中文。 2 df = pd.DataFrame(list) 3 df.columns = ["***","金额","备注"]
第五步修改行索引,因为默认行索引从0开始,我需要改成从1开始:
1 # 修改行索引 2 indexname = numpy.arange(1,19) 3 # 这里我试了range(),也试了linspace(),都返回报错。 4 df.index = indexname 5 df
第六步修改某一列属性:
1 # 修改某一列的属性,这里一定要注意将修改后属性列重新赋给列,否则无效。 2 df['金额'] = df['金额'].astype(int)
第七步查看各列属性并计算某列的数值之和:
1 df.dtypes 2 # 查看某列的总和 3 df['金额'].sum()
备注:原文件为 Numpy&PandasPractice.ipynb