一、
1.pandas读取txt数据
import pandas as pd
data = pd.read_csv('F:\python_env\music_rec\taste_profile_subset\mini_triplets.txt', sep=' ', names=['userID', 'musicID', 'Views'])
# data.to_excel('240.xlsx') 将数据保存为excle格式
sep=" "是原始文档间的空格每一个文档可能都不一样,可能有空格,逗号或者是 ,根据情况选择names用来设置列名,如果不设置的话,则默认使用第一列作为列名。
2 isin() 筛选:
data[data['views'].isin([1])]
3 分组(统计汇总)
“group by” 指的是涵盖下列一项或多项步骤的处理流程:
- 分割:按条件把数据分割成多组;
- 应用:为每组单独应用函数;
- 组合:将处理结果组合成一个数据结构
data.groupby('musicID').sum()#按照音乐分组,统计每首歌的总播放量