zoukankan      html  css  js  c++  java
  • 量化编程技术—pandas与数据分析

    # -*- coding: utf-8 -*-
    # @Date:   2017-08-26
    # @Original:
    
    import numpy as np
    
    stock_cnt = 200
    view_days = 504
    # 生成序列
    stock_day_change = np.random.standard_normal((stock_cnt, view_days))
    stock_day_change.shape
    
    
    import pandas as pd
    
    列出前5行数据
    pd.DataFrame(stock_day_change).head(5)
    
    
    4.1.2 索引行列序列
    # 从2017-1-1向上时间递进,单位freq='1d'即1天
    days = pd.date_range('2017-1-1', periods=stock_day_change.shape[1], freq='1d')
    # 股票0 -> 股票stock_day_change.shape[0]
    stock_symbols = ['股票 ' + str(x) for x in range(stock_day_change.shape[0])]
    # 分别设置index和columns
    df = pd.DataFrame(stock_day_change, index=stock_symbols, columns=days)
    # 表4-3所示
    df.head(2)
    
    
    df_stock0 = df['股票 0']
    print(type(df_stock0))
    # 打印出Series的前5行数据, 与DataFrame一致
    # <class 'pandas.core.series.Series'>
    df_stock0.head()
    
    
    4.2.1 数据整体分析
    info()查看数据是否有缺失,及各个子数据的数据类型
    tsla_df.info()
    describe()展示每组数据的统计信息
    tsla_df.describe()
    
    4.2.2 索引选取和切片选择
    使用loc配合行名称、列名称选取切片示例如下
    # 2014-07-23至2014-07-31 开盘价格序列
    tsla_df.loc['2014-07-23':'2014-07-31', 'open']
    
    iloc配合行索引数值及列索引数值选取切片
    # [1:5]:(1,2,3,4),[2:6]: (2, 3, 4, 5)
    tsla_df.iloc[1:5, 2:6]
    
    根据列名混合选择
    tsla_df.[['close','high','low']][0:3]
    
    
    4.2.3 逻辑条件进行数据筛选
    # abs为取绝对值
    # 涨跌幅大于8%,交易成交量大于统计周期内的平均值的2.5倍
    tsla_df[(np.abs(tsla_df.netChangeRatio) > 8) & (tsla_df.volume > 2.5 * tsla_df.volume.mean())]
    
    4.2.4 数据转换与规整
    tsla_df.sort_index(by='netChangeRatio')[:5]
    
    # 如果一行的数据中存在na就删除这行
    tsla_df.dropna()            
    # 通过how控制 如果一行的数据中全部都是na就删除这行
    tsla_df.dropna(how='all')    
    
    # 使用指定值填充na, inplace代表就地操作,即不返回新的序列在原始序列上修改
    tsla_df.fillna(tsla_df.mean(), inplace=True).head()
    # pct_change()对序列从第二项开始向前做减法后再除以前一项,即涨跌幅
    tsla_df.close.pct_change()[:3]
    
    # 将change_ratio转变成与tsla_df.p_change字段一样的百分百,同样保留两位小数
    np.round(change_ratio[-5:] * 100, 2)
    
    
    4.2.5 数据本地序列化操作
    
    tsla_df.to_csv('../gen/tsla_df.csv', columns=tsla_df.columns, index=True)
    tsla_df_load = pd.read_csv('../gen/tsla_df.csv', parse_dates=True, index_col=0)
    tsla_df_load.head()
  • 相关阅读:
    java异常
    集群、分布式、负载均衡区别
    基本数据结构的比较
    记录一次tomcat问题排查记录:org.apache.tomcat.util.bcel.classfile.ClassFormatException: Invalid byte tag in constant pool: 19
    记录 Java 的 BlockingQueue 中的一些坑
    Java高级面试题解析(二):百度Java面试题前200页(精选)
    学习netty遇到的关于 LineBasedFrameDecoder 的问题
    ThreadPoolExecutor 入参 corePoolSize 和 maximumPoolSize 的联系
    TreeMap 的排序冲突吗
    checkbox jquery操作总结
  • 原文地址:https://www.cnblogs.com/bitquant/p/11521559.html
Copyright © 2011-2022 走看看