zoukankan      html  css  js  c++  java
  • 猪和python(pig and python)

    Python 真是无处不在国内.

    pig 0.9后python作为嵌入式语音,采用Jython解释器使用python2.5特征,此接口是最上层org.apache.pig.scripting.Pig
    首先python脚本将一些Pig Latin译。然后将在Python中定义的变量传递给它,最后运行它。

    1) Pig.compile 或compilefromFile 对代码进行预编译
    2)Bind 方法将控制流中的变量绑定到Pig Latin脚本中的变量,会返回一个BoundScript对象
    3)针对BoundScript对象,能够调用runSingle方法来运行他,返回一个pigStat对象,假设在绑定过程中pig对象绑定到了一组包括參数的map,就要调用run方法了,相同返回一个pigStats对象。

    用户编写的UDF的一个单独的实例会被构建并运行在每一个map或reduce的任务中,构造器參数是一种传递信息给用户UDF的方式。


    python与pig的类型相应

    int number
    long number
    float number
    double number
    chararray string
    bytearray string
    map dictionary
    tuple tuple
    bag list oftuples 




    pig 的载入函数是基于hadoop的InputFormat创建的,基类是loadFunc,LoadFunc 的默认实现是针对HDFS的,pig 提供了prepareToRead 方法为载入函数提供了初始化自己的一个途径。一旦用户的载入函数实现了getSchema 方法,那么Load语句就不再须要定义他们的模式了。



    同理。存储函数式基于Hadoop的OutoutFormat构建的。接受的是Pig的Tuple,然后依据输出个好事创建健-值对后写入存储中,基类是storeFunc,Pig会在每一个map或reduce 任务调用存储函数prepareToWrite办法。PutNext它是存储功能的核心方法。

    版权声明:本文博主原创文章。博客,未经同意不得转载。

  • 相关阅读:
    Asp.Net图片上传
    JQuery实现CheckBox全选全不选
    DES加密解密公用方法(详细注释)
    sysobjects
    window.onload和$(document).ready()区别
    Ajaxpro2 实现三级联动
    idea Mac版过期处理方法.适用于JetBrains全家桶
    rabbitmq报错Failed to start RabbitMQ broker
    pip install image 失败,加上国内源
    关于系统程序员的一些感悟
  • 原文地址:https://www.cnblogs.com/lcchuguo/p/4846169.html
Copyright © 2011-2022 走看看