zoukankan html css js c++ java

使用spark-shell从本地读取文件不成功的的操作。

今天打开spark-shell 想试试好久不用的命令，想从本地读取数据，然后做一个简单的wordcount。但是就是读取不成功。代码如下：

scala 代码
val file="/home/gxg/test"
val lines = sc.textFile(file)
val wordRDD = lines.flatMap(line => line.split(" "))
val wordpair = wordRDD.map(word => (word,1))
 val result = wordpair.reduceByKey(_+_)


org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://server1.hadoop:8020/home/gxg/test
  at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:287)
  at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:229)
  at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:315)
  at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:202)
  at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:252)
  at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:250)
  at scala.Option.getOrElse(Option.scala:121)
  at org.apache.spark.rdd.RDD.partitions(RDD.scala:250)

在做累加的时候就报错了，这里显示要从HDFS上面去读取文件，但是我想从本地读取文件进行计算。于是找资料，将输入的文件的加上前缀，则计算成功。

val file="file:///home/gxg/test"

至此使用spark可以从本地读取文件然后进行计算。

查看全文

相关阅读:
在windows下安装mysql2 的问题解决兰猫
 物料在XXX仓库不存在
 sapcar解压缩
 采购信息源（采购信息记录、合同、计划协议、报价）
拓端tecdat|R语言矩阵特征值分解(谱分解)和奇异值分解(SVD)特征向量分析有价证券数据
 拓端tecdat|Python面板时间序列数据预测：格兰杰因果关系检验Granger causality test药品销售实例与可视化
 拓端tecdat|R语言分布滞后线性和非线性模型（DLNM）分析空气污染（臭氧）、温度对死亡率时间序列数据的影响
 拓端tecdat|Python在线零售数据关联规则挖掘Apriori算法数据可视化
 拓端tecdat|R语言ARIMAGARCH波动率模型预测股票市场苹果公司日收益率时间序列
 Google编码规范

原文地址：https://www.cnblogs.com/gxgd/p/9224935.html