zoukankan html css js c++ java

Notes | *前沿趋势分析

Task1. 论文数据统计

目标：自己Pandas用得很少，这个task主要练习Pandas基础。

学习Notes：

data = pd.DataFrame(data) #将list变为dataframe格式，方便使用pandas进行分析

data.shape #显示数据大小

data.head() #显示数据的前五行

for idx, line in enumerate(f): #遍历文档每一行，包括它的index

data.rename(columns={0:'a',1:'b'}, inplace=True) # 修改列名

d = {col : d[col] for col in columns} #获取dataframe格式的d中指定的一些列

data["categories"].describe()

粗略统计论文的种类信息：

data["year"] = pd.to_datetime(data["update_date"]).dt.year 

#将update_date从例如2019-02-20的str变为datetime格式，并提取处year

data.reset_index(drop=True, inplace=True) #重新编号

data.merge(df_taxonomy, on="categories").query("group_name == @group_name") 
#使用 merge 函数，对于两个dataframe 共同的特征 categories 进行合并

【未完待续】

查看全文

相关阅读:
AngularJS-webapp($q)
mybatis
maven联通网络下中央仓库不能访问的解决办法
 IDEA闪退问题
 scala学习笔记(8)文件和正则表达式
 scala学习笔记(8)
scala学习笔记(7)
kafka复习(2)
第一天
 while循环