zoukankan html css js c++ java

Spark:使用Spark Shell的两个示例

Python 行数统计

** 注意： **使用的是Hadoop的HDFS作为持久层，需要先配置Hadoop

命令行代码

# pyspark
>>> lines = sc.textFile("/user/mint/README.md") # 创建一个名为lines的RDD.首先要确保README.md在HDFS文件系统相应的路径中.这里的文档是Spark在安装目录下,选择其他文档.
>>> lines.count() # 行数
>>> lines.first() # 显示第一个元素，这里就是第一行

如果运行出错,可以排查如下情况：

Spark没有运行
README.md没有放在对应的文件

结果示例

>>> lines = sc.textFile("README.md")
>>> lines.count()
99
>>> lines.first()
u'# Apache Spark'
>>> lines = sc.textFile("/user/mint/README.md")
>>> lines.first()
u'# Apache Spark'

Scala 行数统计

命令及结果示例

# spark-shell
scala> val lines  = sc.textFile("README.md")
lines: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:24

scala> lines.count()
res0: Long = 99

scala> lines.first()
res1: String = # Apache Spark

查看全文

相关阅读:
Socket send函数和recv函数详解
 isdigit()函数用法
 C语言的那些小秘密之字节对齐
 The Five Best Linux BitTorrent Clients
怎么计算网站高峰期并发量和所需的带宽？
软件需求包括3个不同的层次业务需求、用户需求和功能需求
 右键删除选中的行总提示rowIndex
SQL Server[转]SQL Server中临时表与表变量的区别
 面向对象的软件工程应用浅研
 OO开发思想：面向对象的开发方法(Object oriented,OO）

原文地址：https://www.cnblogs.com/bovenson/p/5801536.html