zoukankan      html  css  js  c++  java
  • Spark SQL怎么创建编程创建DataFrame

    创建DataFrame在Spark SQL中,开发者可以非常便捷地将各种内、外部的单机、分布式数据转换为DataFrame。以下Python示例代码充分体现了Spark SQL 1.3.0中DataFrame数据源的丰富多样和简单易用:

    1. # 从Hive中的users表构造DataFrame
    2. users = sqlContext.table("users")
    3. # 加载S3上的JSON文件
    4. logs = sqlContext.load("s3n://path/to/data.json", "json")
    5. # 加载HDFS上的Parquet文件
    6. clicks = sqlContext.load("hdfs://path/to/data.parquet", "parquet")
    7. # 通过JDBC访问MySQL
    8. comments = sqlContext.jdbc("jdbc:mysql://localhost/comments", "user")
    9. # 将普通RDD转变为DataFrame
    10. rdd = sparkContext.textFile("article.txt")
    11.                   .flatMap(lambda line: line.split())
    12.                   .map(lambda word: (word, 1))
    13.                   .reduceByKey(lambda a, b: a + b)
    14. wordCounts = sqlContext.createDataFrame(rdd, ["word", "count"])
    15. # 将本地数据容器转变为DataFrame
    16. data = [("Alice", 21), ("Bob", 24)]
    17. people = sqlContext.createDataFrame(data, ["name", "age"])
    18. # 将Pandas DataFrame转变为Spark DataFrame(Python API特有功能)
    19. sparkDF = sqlContext.createDataFrame(pandasDF)
  • 相关阅读:
    谈谈焦虑
    Bridge
    Abstract Factory
    开篇辞
    缓存穿透和缓存雪崩
    缓存与数据库的一致性思考
    GDB
    代码格式化
    CSMA/CA协议
    18年秋招(19届)复习指导+面经总结,手把手教你进大厂——阿里、网易、京东、多益等
  • 原文地址:https://www.cnblogs.com/awishfullyway/p/6485205.html
Copyright © 2011-2022 走看看