zoukankan      html  css  js  c++  java
  • 采样、哑变量

    采样

    df = DataFrame(np.arange(5 * 4).reshape((5, 4)))

    sampler = np.random.permutation(5)

    df表如下:

           0     1     2     3

    0     0     1     2     3

    1     4     5     6     7

    2     8     9     10   11

    3     12   13   14   15

    4     16   17   18   19

    df.take(sampler)得到表如下:

           0     1     2     3

    1     4     5     6     7

    0     0     1     2     3

    2     8     9     10   11

    3     12   13   14   15

    4     16   17   18   19

    由此可知take()使得df表的每一列按照sample作为索引进行采样

    下面是一种有放回的抽样方式

    bag = np.array([5, 7, -1, 6, 4])

    sampler = np.random.randint(0, len(bag), size=10)  #可以产生重复的索引值

    draws = bag.take(sampler)

    哑变量

    df表如下

         data1  key

    0      0   b

    1      1   b

    2      2   a

    3      3   c

    4      4   a

    5      5   b

    经过pd.get_dummies(df['key'],prefix='key')处理后得到

           key_a     key_b     key_c

    0     0            1            0

    1     0            1            0

    2     1            0            0

    3     0            0            1

    4     1            0            0

    5     0            1            0

  • 相关阅读:
    【HYSBZ】1588 营业额统计
    【HYSBZ】1503 郁闷的出纳员
    【ZOJ】3228 Searching the String
    【ZOJ】3494 BCD Code
    【HDU】1754 I Hate It
    【HDU】3247 Resource Archiver
    【POJ】3481 Double Queue
    EdgeCore初学习
    go mod常用命令 已经 常见问题
    GO语言内存操作指导—unsafe的使用
  • 原文地址:https://www.cnblogs.com/yongfuxue/p/10042343.html
Copyright © 2011-2022 走看看