寒假第十二天

zoukankan html css js c++ java

寒假第十二天

今天有安装了一下教程上Spark的Kafka作为Spark的数据源，看教程看不懂是干什么的，但是在教程的帮助下安装上了Kafka

然后我有下载了Eclipse可以编写Spark应用程序，安装插件安装了很久，然后测试了一下可以使用

然后我有解决了之前实验四的一些问题，2和3独立编程中sbt打包一直失败，后来发现

2.编写独立应用程序实现数据去重
对于两个输入文件 A 和 B，编写 Spark 独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件 C。下面是输入文件和输出文件的一个样例，供参考。输入文件 A 的样例如下：

20170101 x 20170102 y 20170103 x 20170104 y 20170105 z 20170106 z 输入文件 B 的样例如下：

20170101 y 20170102 y 20170103 x 20170104 z 20170105 y 根据输入的文件 A 和 B 合并得到的输出文件 C 的样例如下： 20170101 x 20170101 y 20170102 y

中代码路径应该有两个 val dataFile1 = "file:///usr/local/spark/mycode/remdup/data1.txt,file:///usr/local/spark/mycode/remdup/data2.txt"

然后就完成了，输出的文件在hdfs里

编写独立应用程序实现求平均值问题

每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；编写 Spark 独立应用程序求出所有学生的平均成绩，并输出到

一个新文件中。下面是输入文件和输出文件的一个样例，供参考。

Algorithm 成绩：

小明 92

小红 87

小新 82

小丽 90

Database 成绩：

小明 95

小红 81

小新 89

小丽 85

Python 成绩：

小明 82

小红 83

小新 94

小丽 91

平均成绩如下：

(小红,83.67)

(小新,88.33)

(小明,89.67)

(小丽,88.67)

跟这个一样

查看全文

相关阅读:
用小百合学python
驱动对象设备对象设备栈乱杂谈
 [转]很经典的http协议详解
 利用VMWare和WinDbg调试驱动程序
 GCC基础
 史上最著名的10个思想实验 (转)
windows XP下驱动开发环境设置(DDK+VC6.0)
守护进程
 驱动SYS开发总结
 ASP.NET学习笔记1

原文地址：https://www.cnblogs.com/zlj843767688/p/12272959.html