zoukankan      html  css  js  c++  java
  • Notes | *前沿趋势分析

    [学习资料github]

    Task1. 论文数据统计

    目标:自己Pandas用得很少,这个task主要练习Pandas基础

    学习Notes:

    data = pd.DataFrame(data) #将list变为dataframe格式,方便使用pandas进行分析
    data.shape #显示数据大小
    data.head() #显示数据的前五行
    for idx, line in enumerate(f): #遍历文档每一行,包括它的index
    data.rename(columns={0:'a',1:'b'}, inplace=True) # 修改列名
    d = {col : d[col] for col in columns} #获取dataframe格式的d中指定的一些列
    data["categories"].describe() 

    粗略统计论文的种类信息:

    • count:一列数据的元素个数;
    • unique:一列数据中元素的种类;
    • top:一列数据中出现频率最高的元素;
    • freq:一列数据中出现频率最高的元素的个数;
    data["year"] = pd.to_datetime(data["update_date"]).dt.year 

    #将update_date从例如2019-02-20的str变为datetime格式,并提取处year
    data.reset_index(drop=True, inplace=True) #重新编号
    data.merge(df_taxonomy, on="categories").query("group_name == @group_name") 
    #使用 merge 函数,对于两个dataframe 共同的特征 categories 进行合并

    【未完待续】

  • 相关阅读:
    虚拟机简介
    关于JavaScript的那些话
    关于Python的那些话
    JavaScript教程大纲
    一个resin启动bug的解决
    Python教程大纲
    zinnia项目功能分析
    CDN公共资源
    Django Web项目部署参考
    Django Web项目代码规范参考
  • 原文地址:https://www.cnblogs.com/shona/p/14274862.html
Copyright © 2011-2022 走看看