zoukankan
html css js c++ java
(4)pyspark---dataframe清理
1、交叉表(crosstab):
pandas中也有,常和pivot_table比较。
查看家庭ID与评分的交叉表:
2、处理缺失值:fillna
withColumn:新增一列数据
cast : 用于将某种数据类型的表达式显式转换为另一种数据类型
将缺失值删除:dropna
3、处理重复值
查看有没有重复值存在:distinct().count()
将重复值去除:dropDuplicates()
4、dataframe的agg应用:
查看全文
相关阅读:
面向对象-对象的内存图
面向对象-类与对象的关系
部署Ambari Server实战案例
面向对象介绍
基础语法-二维数组的基本使用
基础语法-无序/有序数组中元素的查找
常见数据结构与算法-冒泡排序
常见数据结构与算法-选择排序
基础语法-数组的常见问题及常见操作
基础语法-数组的内存分配
原文地址:https://www.cnblogs.com/Lee-yl/p/9771975.html
最新文章
文档流
css display
内联盒子
文本样式
字体样式
长度单位
文本标签和列表标签
面向对象-抽象类实战案例
面向对象-final关键字
面向对象-继承类的特点
热门文章
面向对象第二个特征-继承(Inheritance)
面向对象-单线程场景单例设计模式实战案例
基于Ambari的WebUI部署HBase服务
面向对象-静态代码块
面向对象-main函数
面向对象-static关键字实战案例
面向对象-类的构造方法(函数)
面向对象第一个特征-封装(Encapsulation)
面向对象-匿名对象
面向对象-成员变量和局部变量的区别
Copyright © 2011-2022 走看看