zoukankan      html  css  js  c++  java
  • Hadoop Serialization -- hadoop序列化具体解释 (2)【Text,BytesWritable,NullWritable】

    回想:
    回想序列化,事实上原书的结构非常清晰,我截图给出书中的章节结构:
    序列化最基本的,最底层的是实现writable接口,wiritable规定读和写的游戏规则 (void write(DataOutput out) throws IOException;  void readFields(DataInput in) throws IOException;)。为了适应hadoop的mapreduce的运算特性,也就是map 和reduce对key的比較,排序的功能,就要实现Comparable接口,这个接口规定 public int compareTo(T o);这种方法。为了增强处理大数据集的能力。我们不能老是先序列化,传输,反序列化。然后进行比較compare,太消耗时间和性能了。我们有了增强的RawComparator,RawComparator是Comparator的增强版,能够比較没有被反序列化的数据。

    hadoop须要处理的数据五花八门,java具有的基本数据类型都有可能在hadoop中出现,hadoop因此包装了java的基本数据类型使他们实现以上的接口而且给予实现细节。这些类都实现了WritableComparable接口。插上飞翔的翅膀,能够在不同的hadoop节点之间毫无障碍的传输了。如入无人之境。



    既然Text拿出来单独讨论。

    自然就要好好研究一下Text的实现细节,对于我们对hadoop的设计细节和思想太重要太重要。


    Text是UTF-8字符串的Writable实现。被看做是java String类型的替换。Text 类取代了UTF8 类, UTF8 类不支持编码大于32767 个字节的字符.使用了Java 改进过的UTF-8.Text 使用int 型(使用一个可变长度的编码方案)在字符感编码中存储字节数. 最大值是2 GB 。此外。 Text 使用标准的UTF芯,使其更易于与理解U T F-8 的其它工具协同工作.

    为什么是2GB,我预计非常少人会思考这个问题,我们简单计算一下:

    利用int存储字节长度,int最大是2^31-1,那么字节最大长度就是2^31-1

    Text可以容纳的大小R=(2^31-1)/1024/1024/1024=1.99999999=2GB
    因此我们使用他的时候要知道他的大小是有限制的。

    因为强调使用标准的UTF8,所以Text 和Java 的String 类之间还是有一些差别的。Text 类的索引位于编码后的字节系列中,而不是字符串中的Unicode 字符.或Java 的char 编码单元{如同String 一样)。举比例如以下:


    这方面的差异用中文就非常好的说明这个问题。

     String line = "滚滚长江东逝水";
        System.out.println(line.length());
        Text text = new Text(line);
        System.out.println(text.getLength());
        System.out.println(line.charAt(2));
        System.out.println(text.charAt(2));

    输出:
    7
    21

    -1
        String line = "merry christmas";
        System.out.println(line.length());
        Text text = new Text(line);
        System.out.println(text.getLength());
        System.out.println(line.charAt(2));
        System.out.println(text.charAt(2));

    输出:
    15
    15
    r
    114
    能够看出来,他们的索引(Index)是真的不一样。同一个索引值取出来的并非同一个东西。


    注意, charAt ( )返回了一个int 类型来表示Unicode 代码点, 而不是像String 变量那样返回一个char 类型。

    在開始使用一个以上字节进行编码的字符(比如中文。!

    ), Text 和String 之间的差别是非常明显的。

    下表展示了Unicode的代码点。


    U+0041 代码点相应大写字母A 一直到U+00DFUTF-8都是一个字节编码。剩下的都是两个字节以上。而对于java,最后一行,仅仅有最后一个代码点是两个。其它的都是一个字节的。这点区别非常大。

    怕非常多人不懂代码点,我再解释一下:
    Unicode 是通用字符编码标准。用于表示文本以供计算机处理。Unicode 提供了一种对多语种文本进行一致编码的方法,便于国际文本文件的交换。每一个 Unicode 字符均映射到一个代码点,代码点是一个介于 0 和 1,114,111 之间的整数。Unicode 代码点使用 U+nnnn 形式的表示法来表示(当中 nnnn 是代码点的十六进制数),或使用描写叙述代码点的文本字符串来表示。比如,小写字母 “a” 能够用 U+0061 或文本字符串 "LATIN SMALL LETTER A" 来表示。 代码点能够使用不同的字符编码方案进行编码。

    在 Oracle Solaris Unicode 语言环境中,使用的是 UTF-8 形式。UTF-8 是 Unicode 的一种可变长度编码形式,它透明地保留了 ASCII 字符代码值(请參见UTF-8 概述)。 代码点就是一个字符在Unicode中相应的编码。



    String 的长度是它包含的字符个数 。但Text 对象的长度是其UTF -8 编码的字节数. 相同。 indexOf () 方泣返回一个char 类型的编码单元的索引。find () 方格是字节偏移量.请看样例:


    @Test
    public void string() throws UnsupportedEncodingException {
    String s = "u0041u00DFu6771uD801uDC00";
    assertThat(s.length(), is(5));
    assertThat(s.getBytes("UTF-8").length, is(10));
    assertThat(s.indexOf("u0041"), is(0));
    assertThat(s.indexOf("u00DF"), is(1));
    assertThat(s.indexOf("u6771"), is(2));
    assertThat(s.indexOf("uD801uDC00"), is(3));
    assertThat(s.charAt(0), is('u0041'));
    assertThat(s.charAt(1), is('u00DF'));
    assertThat(s.charAt(2), is('u6771'));
    assertThat(s.charAt(3), is('uD801'));
    assertThat(s.charAt(4), is('uDC00'));
    assertThat(s.codePointAt(0), is(0x0041));
    assertThat(s.codePointAt(1), is(0x00DF));
    assertThat(s.codePointAt(2), is(0x6771));
    assertThat(s.codePointAt(3), is(0x10400));
    }

    @Test
    public void text() {
    Text t = new Text("u0041u00DFu6771uD801uDC00");
    assertThat(t.getLength(), is(10));   //10 = 1+2+3+4 是其UTF -8 编码的字节数  
    assertThat(t.find("u0041"), is(0));
    assertThat(t.find("u00DF"), is(1));
    assertThat(t.find("u6771"), is(3));
    assertThat(t.find("uD801uDC00"), is(6));
    assertThat(t.charAt(0), is(0x0041));
    assertThat(t.charAt(1), is(0x00DF));
    assertThat(t.charAt(3), is(0x6771));
    assertThat(t.charAt(6), is(0x10400));
    }

    遍历Text,迭代
    迭代使用索引的字节偏移对Text 中的Unicode 字符进行途代是非常复杂的,由于你不能仅仅添加索引。迭代的定义有点模糊(见例4-6 ) 将Text 对象变成java.nio.ByteBuffer然后对缓冲的Text 重复调用bytesToCodePoint() 静态方法.这个方泣提取下一个代码点作为int 然后更新缓冲中的位置。当bytesToCodePoint() 返回- 1 时,检測到字符结束。意思就是说,我们取字符的时候。是一整个一整个字符的取,我们不可以依照索引来取,我们依照代码点整个整个的取。



    public class TextIterator {
    public static void main(String[] args) {
        Text t = new Text("u0041u00DFu6771uD801uDC00");
        ByteBuffer buf = ByteBuffer.wrap(t.getBytes(), 0, t.getLength());
        int cp;
        while (buf.hasRemaining() && (cp = Text.bytesToCodePoint(buf)) != -1) {
        System.out.println(Integer.toHexString(cp));
    }
    }
    }
    输出:
    41
    df
    6771
    10400

    可改动性
    String 和Text 的还有一个差别在于可改动性(像Hadoop 中的全部Writable 实视一样。但NullWritable 除外,后者是单实例对象)。

    我们能够通过对它调用set() 函数来重用Text 实例。

    示比例如以下:

    Text t = new Text("hadoop");
    t.set("pig");
    assertThat(t.getLength(), is(3));
    assertThat(t.getBytes().length, is(3));

    转为字符串
    Text 不像java. l ang.String 一样有一个能够处理字符串的API ,所以在很多情况下,须要将Text 对象转化为String 对象。这通经常使用toString()方法来完毕。

    assertThat(new Text("hadoop ") . toString() , is( "hadoop"));


    BytesWritable

    BytesWritable 是一个二进制数据数组封装。

    它的序列化格式是一个int 字段(4字节) ,指定的是字节数及字节本身。

    比如。 一个长度为2 ,值为3 和5 的字节数组序列化为一个4 字节的整数(00000002)加上两个来自数组的字节(03 和05) 。


    BytesWritable b = new BytesWritable(new byte[] { 3, 5 });
    byte[] bytes = serialize(b);
    assertThat(StringUtils.byteToHexString(bytes), is("000000020305"));

    BytesWritab1e 是可变的。其值可通过调用set ( )方撞来改变。和Text一样 。从getBytes ( )方法返回的字节数组大小可能并没有反映出存储在BytesWritable 的数据的实际大小.能够通过调用getLength () 方法来确定BytesWritable 的长度。比如:

    b.setCapacity(11);
    assertThat(b.getLength(), is(2));
    assertThat(b.getBytes().length, is(11));

    NullWritable
    NullWritable 是一种特殊的Writable 类型,由于它的序列化是零长度的。

    没有字节被写入流或从流中读出.它被用作占位符.比如,在MapReduce 中,在不需要这个位置的时候,键或值能够被声明为NullWritable,他有效存储了一个不变的空值。NullWritable 也能够非常实用,在打算存储一系列值的时候,作为SequenceFile 的一个键,而不是键/值对。

    它是一个不变的单实例,事实上例能够通过调用NullWritable.get() 方法来检索。


    今天就到这里。

    Charles 2015-12-24晚于P.P




    版权说明:
    本文由Charles Dong原创,本人支持开源以及免费故意的传播。反对商业化谋利。
    CSDN博客:http://blog.csdn.net/mrcharles
    个人站:http://blog.xingbod.cn
    EMAIL:charles@xingbod.cn


  • 相关阅读:
    Web开发利器Webstorm导入多个文件夹或者项目
    js react 全选和反选
    nginx的配置文件 【nginx.conf】
    nginx 服务器重启命令,关闭
    Nginx反向代理新篇-使用location对多个URL做反向代理
    Windows下Nginx的安装与配置
    es6 递归 tree
    自定义table样式
    数据库(7)
    数据库(6)
  • 原文地址:https://www.cnblogs.com/gccbuaa/p/7055880.html
Copyright © 2011-2022 走看看