zoukankan html css js c++ java

pandas库疑难问题---1、pandas打乱数据集

一、总结

df=df.sample(frac=1.0) #打乱所有数据
df=df.reset_index(drop=True) #打乱后的数据index也是乱的，用reset_index重新加一列index，drop=True表示丢弃原有index一列

博客对应课程的视频位置：1、pandas打乱数据集-范仁义-读书编程笔记
https://www.fanrenyi.com/video/39/360

import pandas as pd

In [6]:

data = pd.read_csv('./iris.data',header=None)
data

Out[6]:

150 rows × 5 columns

In [7]:

#设置frac=0.5表示随机抽取50%的数据
data=data.sample(frac=1.0)#打乱所有数据
data

Out[7]:

150 rows × 5 columns

为了结果的复现

可以看到设置的种子一样的时候，生成的随机数是一样的

In [9]:

data = pd.read_csv('./iris.data',header=None)
data=data.sample(frac=1.0,random_state=11)#打乱所有数据
data

Out[9]:

150 rows × 5 columns

In [10]:

data = pd.read_csv('./iris.data',header=None)
data

Out[10]:

150 rows × 5 columns

In [11]:

data=data.sample(frac=1.0)#打乱所有数据
data

Out[11]:

150 rows × 5 columns

In [12]:

data=data.reset_index(drop=True) #打乱后的数据index也是乱的，用reset_index重新加一列index，drop=True表示丢弃原有index一列
data

Out[12]:

150 rows × 5 columns

In [ ]:

博客对应系列课程视频位置：
1、pandas打乱数据集-范仁义-读书编程笔记
https://www.fanrenyi.com/video/39/360
2、pandas切片操作-范仁义-读书编程笔记
https://www.fanrenyi.com/video/39/379
3、loc方法和iloc方法的区别-范仁义-读书编程笔记
https://www.fanrenyi.com/video/39/380
4、DataFrame类型转换成Numpy中ndarray-范仁义-读书编程笔记
https://www.fanrenyi.com/video/39/381

我的旨在学过的东西不再忘记（主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法）的偏公益性质的完全免费的编程视频学习网站： fanrenyi.com；有各种前端、后端、算法、大数据、人工智能等课程。

一些博文中有一些参考内容因时间久远找不到来源了没有注明，如果侵权请联系我删除。

聊技术，交朋友，修心境，qq404006308，微信fan404006308

人工智能群：939687837

感悟总结

查看全文

相关阅读:
visual studio项目多级引用不拷贝dll的问题
 ef6 code first，对已有数据库如何执行迁移
 wsl 修改默认安装路径
 Windows docker镜像文件无法删除
 Docker镜像下载很慢，各种加速无效
 activemq整合springboot使用(个人微信小程序用)
angular入门一之环境安装及项目创建
 jquery中attr()和prop()的区别
 IntelliJ IDEA部署web项目，Tomcat没有出现Artifacts
IntelliJ IDEA：创建Java Web工程