1

 dataset = """
        role_1,u1,1,1 

        role_1,u1,2,2 

        role_1,u1,3,3 

        role_1,u1,4,4 

        role_2,u2,5,5 

        role_2,u2,6,6
    """

    data = para.sc.parallelize(dataset.strip().split("
")).filter(lambda line: line)
    data = data.map(lambda line: line.strip().split(','))
    print data.take(6)
    unweighted = data 
        .map(lambda (role_id, role_name, total_num, logtime): ((role_id, role_name), (int(total_num), str(logtime)))) 
        .reduceByKey(lambda x, y: (x[0] + y[0], min(x[1], y[1]))) 
        .map(lambda x: (x[0][0], x[0][1], x[1][0], x[1][1]))
    print unweighted.take(2)

http://www.cnblogs.com/makexu/

查看全文

相关阅读:
Arduino单片机使用和开发问题记录
 U盘启动笔记本无法安装Win7问题和解决
 FreeSwitch安装配置记录
 TOGAF有哪些学习要点？
有没有方法指导IT顶层规划和实施？
专业品质的3月TOGAF认证线上公开课
 《方法论学习 v0.8》出炉
 记疫情期间第一次TOGAF认证课：从线下转到线上教育
 TOGAF认证课程，作为讲师我有话说
 首个企业架构TOGAF角色扮演案例培训的诞生

原文地址：https://www.cnblogs.com/makexu/p/8252499.html