zoukankan html css js c++ java

spark小例子

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object MaxTemperaturer {
  def main(args: Array[String]): Unit = {
    var conf = new SparkConf().setAppName("MaxGroup").setMaster("local")
    var sc = new SparkContext(conf)
    sc.textFile("/Users/lihu/Desktop/crawle/maxforgroup.txt").map(_.split("	")).filter(_(1) != "0").map(rec => (rec(0).toInt, rec(1).toInt)).reduceByKey(Math.max(_,_)).saveAsTextFile("/Users/lihu/Desktop/crawle/MaxTemperatureLogsss")
  }
}

// 出现次数最多的8个单词
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object TopSearchKeyWords {
  def main(args: Array[String]): Unit = {
    var conf = new SparkConf().setAppName("TopSearchKeyWords").setMaster("local")
    var sc = new SparkContext(conf)
    var src = sc.textFile("/Users/lihu/Desktop/crawle/wahah.txt")
    var countData = src.map(line => (line.toLowerCase(),1)).reduceByKey(_+_)
    var sortedData = countData.map{case (k,v) => (v,k)}.sortByKey(false)
    var topData = sortedData.take(8).map{case (v, k) => (k, v)}.foreach(println _)
    
  }
}

// 统计单词个数，不区分大小写
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object TopSearchKeyWords {
  def main(args: Array[String]): Unit = {
    var conf = new SparkConf().setAppName("TopSearchKeyWords").setMaster("local")
    var sc = new SparkContext(conf)
    var src = sc.textFile("/Users/lihu/Desktop/crawle/wahah.txt")
    var countData = src.map(line => (line.toLowerCase(),1)).countByKey().foreach(println _)

var countData1 = src.map(line => (line.toLowerCase(),1)).reduceByKey(_+_).collect().foreach(println _)

}
}

// 统计男生女生的人数，最高个子和最低个子等
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object TopPeopleSecond {  
  def main(args: Array[String]): Unit = {  
  val conf=new SparkConf().setAppName("TopNSecond by Scala").setMaster("local");  
  val sc=new SparkContext(conf);  
  val data=sc.textFile("/Users/lihu/Desktop/crawle/xingbie.txt",1);  
  val lines=data.map{ line => (line.split(" ")(1),line.split(" ")(2).toInt) };  
  val groups=lines.groupByKey();  
  lines.countByKey().foreach(println _)
  groups.map(tu=> (tu._1,tu._2.max)).foreach(println _);  
  groups.map(tu=> (tu._1,tu._2.min)).foreach(println _);
  groups.map(w => (w._1, w._2.sum)).collect().foreach(println)
  sc.stop();  
  }  
}

查看全文

相关阅读:
Java虚拟机一览表
 Java程序员的10道XML面试题
 bzoj 1644: [Usaco2007 Oct]Obstacle Course 障碍训练课【spfa】
bzoj 1703: [Usaco2007 Mar]Ranking the Cows 奶牛排名【bitset+Floyd传递闭包】
bzoj 1664: [Usaco2006 Open]County Fair Events 参加节日庆祝【dp+树状数组】
bzoj 2100: [Usaco2010 Dec]Apple Delivery【spfa】
bzoj 2015: [Usaco2010 Feb]Chocolate Giving【spfa】
bzoj 1741: [Usaco2005 nov]Asteroids 穿越小行星群【最大点覆盖】
bzoj 1645: [Usaco2007 Open]City Horizon 城市地平线【线段树+hash】
bzoj 2060: [Usaco2010 Nov]Visiting Cows 拜访奶牛【树形dp】

原文地址：https://www.cnblogs.com/sunyaxue/p/6368554.html