zoukankan html css js c++ java

pyspark数据处理分析

相比于pandas，pyspark的dataframe的接口和sql类似，比较容易上手。

搭建python3环境

建议使用miniconda3

下载地址：https://mirrors.bfsu.edu.cn/anaconda/miniconda/ 选择py37版本

conda镜像配置：https://mirrors.bfsu.edu.cn/help/anaconda/

pip镜像配置：https://mirrors.bfsu.edu.cn/help/pypi/

miniconda安装，直接sh minicondaxxxxxx.sh 很简单

选择一个编辑器或者pycharm

pyspark跑单机模式

准备数据集data.csv

name,age
张三,24
李四,25
小红,22

编写一下代码,使用jupyter更佳。

from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[*]").getOrCreate()
print("

app start")
df = spark.read.option('header','true').csv("data.csv")

df.printSchema()

df.show()

df.filter("age<25").show()

spark.stop()

20/12/05 22:14:07 WARN Utils: Your hostname, shuai-virtual-machine resolves to a loopback address: 127.0.1.1; using 192.168.153.128 instead (on interface ens33)
20/12/05 22:14:07 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
WARNING: An illegal reflective access operation has occurred
WARNING: Illegal reflective access by org.apache.spark.unsafe.Platform (file:/home/shuai/miniconda3/lib/python3.7/site-packages/pyspark/jars/spark-unsafe_2.12-3.0.1.jar) to constructor java.nio.DirectByteBuffer(long,int)
WARNING: Please consider reporting this to the maintainers of org.apache.spark.unsafe.Platform
WARNING: Use --illegal-access=warn to enable warnings of further illegal reflective access operations
WARNING: All illegal access operations will be denied in a future release
20/12/05 22:14:08 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).


app start
root
 |-- name: string (nullable = true)
 |-- age: string (nullable = true)

+----+---+
|name|age|
+----+---+
|张三| 24|
|李四| 25|
|小红| 22|
+----+---+

+----+---+
|name|age|
+----+---+
|张三| 24|
|小红| 22|
+----+---+

查看全文

相关阅读:
vue-router在两个以上子路由的情况下，跳转出错
 全局window下添加可变量
 nuxtjs 环境中添加全局axios
nuxt.js 初始化 npm run dev 报错
 replace的回调函数。
JS面向对象的类实例化与继承
 DOM事件： DOM事件级别、DOM事件流、DOM事件模型、DOM事件捕获过程、自定义事件
 sync 简单实现父子组件的双向绑定
 cube-ui 重构饿了吗Webapp的 scroll-nav域名插槽问题
 在element table中导出指定列信息

原文地址：https://www.cnblogs.com/startnow/p/14091285.html

热门文章
yum源安装
 route的简单使用
 SAMBA
RHCS
GlusterFS
分布式存储
 raid
openstack
MySQL主备
 React 的onclick事件在渲染后自动执行问题