找了一份intel提供给AI爱好者的学习资料,官网上可以找到。传送门
1.pandas介绍
pandas中一维变量转换为series,二维数组转换为dataframe
还可以给series添加日期,以及输出指定日期的值
支持对非法数据一键赋值
2.dataframe
dataframe可以从列表、字典、以及series中转化过来
可以为列添加标签,增加索引
有多种方式选中数据
还可以这样?????
从CSV文件中读取数据
统计特性展示
更多统计描述函数参考该博客https://blog.csdn.net/claroja/article/details/65445063
pandas还支持随机取样
关于pandas就先到这里
1.matplotlib
普通绘图,声明好xy轴
图形叠加
画直方图
定制功能?(不是太懂)
利用pandas直接绘图
3.seaborn
比matplotlib更加厉害的可视化接口
还有更厉害的。。。。
第一节主要就介绍了这些工具。关于这些工具库更加详细的使用以后有空专门研究一下
习题时间:
在官网获得的资料里每一节课都一个ipynb文件作业,这里做一下然后加一点解释
Q1
题目一只是简单地检查数据,这里注意data.head()是输出前五行
data.shape是以元组形式输出行与列
Q2
问题二要求移除列名中的Iris前缀,通过data.species.str获取名字字符串对象,通过replace方法消除。
Q3
问题三要求(1)确定每种物种的数量(2)确定每个花瓣和萼片测量的平均值、中位数、分位数以及范围。
Q4
问题四:在单独数据框中计算不同物种的各项平均值与中值。
出人意料非常简单(我是指官方提供的方法,我自己可能还要绕半天)
还有比较魔法的方法,agg为aggregate缩写,意为汇总。
关于汇总再做两个小测试方便解释
Q5
使用Matplotlib制作sepal_length与sepal_width的散点图。 标记轴并为绘图指定标题。
然后通过三个例子展示一下先前plot方法中几个参数的含义
默认是直接连线
ls=''即不连线,但是怎么什么都没有了呢?
加入了marker='o',发现不仅有连线,点也被突出了,难道说。。。
没错!这样就变成散点图了。
Q6
制作四种特征的任意一个直方图,并且标记坐标轴以及标题
Q7
问题7:创建一个直方图群,包括每一个特征的直方图。(尽量不要让它们叠加起来)
Q8
问题8:制作每个花瓣与萼片的箱线图
百科上找了下箱线图的含义
Q9
问题9:现在制作一个箱形图,其中特征在x轴上分开,物种用不同的色调着色。提示:您可能需要查看Seaborn箱图的文档。另请注意,Seaborn对数据格式非常挑剔 - 要使此图工作,需要操作输入数据帧,以便每行包含单个数据点(物种,测量类型和测量值)
首先要整理数据
输出plot_data可以看到,其实是相当于把每个样例的四个特征压缩到一起了
然后绘图(这里sns为seaborn的别名)
seaborn太难了,不会用不会用,虽然看着非常舒服。
Q10
问题10:与Seaborn制作一个配对图,以检查每个测量值之间的相关性。提示:这个图可能看起来很复杂,但实际上只有一行代码。 这是Seaborn和数据帧感知绘图的强大功能! 请参阅讲义以供参考。
没错。。。一行。。。。就是最后那一行。。。。
注意把size改成height
完成