zoukankan      html  css  js  c++  java
  • Apache Pig和Solr问题笔记(一)

    记录下最近两天散仙在工作中遇到的有关Pig0.12.0和Solr4.10.2一些问题,总共有3个,如下:

    (1)问题一: 如何Pig中使用ASCII和十六进制(hexadecimal)的分隔符进行加载,和切分数据?

    注意关于这个问题,在Pig中,会反应到2个场景中,
    第一: 在Pig加载(load)数据时候 。
    第二: 在Pig处理split,或则正则截取数据的时候。

    先稍微说下,为啥使用十六进制的字段分隔符,而不是我们常见的空格,逗号,冒号,分号,#号,等,这些字符,虽然也可以使用,但是如果我们数据中有和这些符号冲突的数据,那么在解析时,就会发生一些出人意料的Bug,所以,为了保险起见,选用肉眼不可读的十六进制的数据,是一个不错的选择,当然这也是,针对场景来说的,看情况决定。

    关于详细的ASCII和十六进制,二进制,八进制,十进制的文档介绍,请参考维基百科全书。

    下面继续回到正题,本例中,我们的数据格式是这样存储的:

    Java代码 复制代码 收藏代码
    1. 每行一条记录,UTF-8编码;   
    2. 每条记录都包括字段名和字段内容;   
    3. 字段之间用ascii码1分隔;   
    4. 字段名与内容之间用ascii码2分隔;  
    每行一条记录,UTF-8编码;
    每条记录都包括字段名和字段内容;
    字段之间用ascii码1分隔;
    字段名与内容之间用ascii码2分隔;



    一个在eclipse中的小例子如下:

    Java代码 复制代码 收藏代码
    1. public static void main(String[] args) {   
    2.     //注意1和2,在我们的IDE中,NotePad++中,Linux的终端设备的界面中,都会呈现不同的   
    3.     //显示方式,大家可以在维基百科中,详细了解下   
    4.     //数据示例   
    5.     String s="prod_cate_disp_id019";   
    6.     //split规则   
    7.     String ss[]=s.split("2");   
    8.     for(String st:ss){   
    9.         System.out.println(st);   
    10.     }   
    11. }  
    	public static void main(String[] args) {
    		//注意1和2,在我们的IDE中,NotePad++中,Linux的终端设备的界面中,都会呈现不同的
    		//显示方式,大家可以在维基百科中,详细了解下
    		//数据示例
    		String s="prod_cate_disp_id019";
    		//split规则
    		String ss[]=s.split("2");
    		for(String st:ss){
    			System.out.println(st);
    		}
    	}




    关于load函数,加载时支持的分隔符类型,大家可以参考官网的文档
    下面看在Pig脚本的代码:

    Java代码 复制代码 收藏代码
    1. --Hadoop技术交流群:415886155  
    2. /*Pig支持的分隔符包括:  
    3. 1,任意字符串,  
    4. 2,任意转义字符  
    5. 3,dec的字符\u001 或者 \u002  
    6. 4,十六进行字符 \x0A  \x0B  
    7. */  
    8. --注意这个load时的分隔符,代表ASCII的1,作为Pig里面的dec直接解析方式   
    9. a = load '/tmp/dongliang/20150401/20150301/tmp_search_keywords_cate_stat/' using PigStorage('\u001') ;   
    10.   
    11. /**  
    12.  
    13. 注意下面的分割符^B,这个符号是脱元字符,只会在终端设备上  
    14. 显示,这个符号,代表ASCII的2  
    15. */  
    16. a = foreach a generate   REGEX_EXTRACT ($0, '(.*)^B(.*)', 2) as time ,   
    17.                          REGEX_EXTRACT ($1, '(.*)^B(.*)', 2) as kw ,   
    18.                          REGEX_EXTRACT ($2, '(.*)^B(.*)', 2) as ic ,   
    19.                          REGEX_EXTRACT ($3, '(.*)^B(.*)', 2) as cid,   
    20.                          REGEX_EXTRACT ($4, '(.*)^B(.*)', 2) as cname,   
    21.                          REGEX_EXTRACT ($5, '(.*)^B(.*)', 2) as pname,   
    22.                          REGEX_EXTRACT ($6, '(.*)^B(.*)', 2) as snt,   
    23.                          REGEX_EXTRACT ($7, '(.*)^B(.*)', 2) as cnt,   
    24.                          REGEX_EXTRACT ($8, '(.*)^B(.*)', 2) as fnt,   
    25.                          REGEX_EXTRACT ($9, '(.*)^B(.*)', 2) as ant,   
    26.                          REGEX_EXTRACT ($10, '(.*)^B(.*)', 2) as pnt ;   
    27.   
    28. --获取字符串长度   
    29. a = foreach a generate SIZE(cid) as len;   
    30. --按长度分组   
    31. b = group a by len;   
    32. --统计各个长度下的数量   
    33. c = foreach b generate group, COUNT($1);   
    34. --输出打印   
    35. dump c;  
    --Hadoop技术交流群:415886155
    /*Pig支持的分隔符包括:
    1,任意字符串,
    2,任意转义字符
    3,dec的字符\u001 或者 \u002
    4,十六进行字符 \x0A  \x0B
    */
    --注意这个load时的分隔符,代表ASCII的1,作为Pig里面的dec直接解析方式
    a = load '/tmp/dongliang/20150401/20150301/tmp_search_keywords_cate_stat/' using PigStorage('\u001') ;
    
    /**
    
    注意下面的分割符^B,这个符号是脱元字符,只会在终端设备上
    显示,这个符号,代表ASCII的2
    */
    a = foreach a generate   REGEX_EXTRACT ($0, '(.*)^B(.*)', 2) as time ,
                             REGEX_EXTRACT ($1, '(.*)^B(.*)', 2) as kw ,
                             REGEX_EXTRACT ($2, '(.*)^B(.*)', 2) as ic ,
                             REGEX_EXTRACT ($3, '(.*)^B(.*)', 2) as cid,
                             REGEX_EXTRACT ($4, '(.*)^B(.*)', 2) as cname,
                             REGEX_EXTRACT ($5, '(.*)^B(.*)', 2) as pname,
                             REGEX_EXTRACT ($6, '(.*)^B(.*)', 2) as snt,
                             REGEX_EXTRACT ($7, '(.*)^B(.*)', 2) as cnt,
                             REGEX_EXTRACT ($8, '(.*)^B(.*)', 2) as fnt,
                             REGEX_EXTRACT ($9, '(.*)^B(.*)', 2) as ant,
                             REGEX_EXTRACT ($10, '(.*)^B(.*)', 2) as pnt ;
    
    --获取字符串长度
    a = foreach a generate SIZE(cid) as len;
    --按长度分组
    b = group a by len;
    --统计各个长度下的数量
    c = foreach b generate group, COUNT($1);
    --输出打印
    dump c;
    




    (2)问题二:如何在Apache Solr中,查询某个不分词的field的长度,有多少个记录?

    Solr里面并没有直接提供这样类似JAVA里的lenth这样的函数,或者Pig里面的SIZE这样的函数,那么我们应该如何查询呢?

    Solr虽然不直接支持这样的查询,但是我们可以通过正则查询,来变相的实现这个目的,用法如下:
    (1)查询固定长度 cid:/.{6}/ 只过滤长度为6的记录
    (2)查询范围长度 cid:/.{6,9}/ 只过滤长度6到9的记录
    (3)查询最少多少长度以上的cid:/.{6}.*/ 长度最少为6的



    (3)问题三:在使用Pig+MapReduce,向Solr中,批量添加索引时,发现,无任何错误异常,但是索引里却没任何数据?

    这是一个比较诡异的问题,本来,散仙觉得应该是程序出问题了,但是后来发现,同样的代码向另外一个collection里添加数据,就很正常,查看solr的log,发现里面打印的一些信息如下:

    Java代码 复制代码 收藏代码
    1. INFO  - 2015-04-01 21:08:36.097; org.apache.solr.update.DirectUpdateHandler2; start commit{,optimize=false,openSearcher=true,waitSearcher=true,expungeDeletes=false,softCommit=false,prepareCommit=false}   
    2. INFO  - 2015-04-01 21:08:36.098; org.apache.solr.update.DirectUpdateHandler2; No uncommitted changes. Skipping IW.commit.   
    3. INFO  - 2015-04-01 21:08:36.101; org.apache.solr.core.SolrCore; SolrIndexSearcher has not changed - not re-opening: org.apache.solr.search.SolrIndexSearcher   
    4. INFO  - 2015-04-01 21:08:36.102; org.apache.solr.update.DirectUpdateHandler2; end_commit_flush  
    INFO  - 2015-04-01 21:08:36.097; org.apache.solr.update.DirectUpdateHandler2; start commit{,optimize=false,openSearcher=true,waitSearcher=true,expungeDeletes=false,softCommit=false,prepareCommit=false}
    INFO  - 2015-04-01 21:08:36.098; org.apache.solr.update.DirectUpdateHandler2; No uncommitted changes. Skipping IW.commit.
    INFO  - 2015-04-01 21:08:36.101; org.apache.solr.core.SolrCore; SolrIndexSearcher has not changed - not re-opening: org.apache.solr.search.SolrIndexSearcher
    INFO  - 2015-04-01 21:08:36.102; org.apache.solr.update.DirectUpdateHandler2; end_commit_flush




    解释下上面的信息的意思,大概就是说在数据索引完了,但是没有发现有commit的数据,所以跳过commit,这一点在程序跑的时候是非常奇怪的,因为数据源HDFS里最少有110万的数据,怎么会没有数据呢? 然后散仙通过谷歌搜索发现也有人发现类似的奇怪情况,无任何异常的情况下,重建索引成功,却在索引里没有看见任何数据,而且最为疑惑的是,这几个网上已经有的案例,竟然没有一个有解决方案。

    没办法了,只好再次查看程序,这一次散仙,把中间处理好需要建索引的数据,给打印出来看一下,到底什么情况,结果打印出来的都是一行行空数据,原来在使用正则截取数据时,原来的分隔符失效了,所以导致截取不到数据,这下问题基本定位了,solr索引里没有数据,肯定是因为本来就没有数据提交,导致的那个奇怪的log发生,结果在散仙把这个bug修复之后,再次重建索引,发现这次果然成功了,在Solr中,也能正常查询到数据。如果你也发生了类似的情况,请首先确保你能正确的获取到数据,不论是从远程读取的,还是解析word,excel,或者txt里面的数据,都要首先确定,能够正确的把数据解析出来,然后,如果还是没建成功,可根据solr的log或者抛出的异常提示,进行修复 。


  • 相关阅读:
    做一个项目,平时都用到哪些工具提高效率(上)
    做项目时,如何做比较美观大方的数据输入窗体
    做一个项目,平时都用到哪些工具提高效率(中)
    类型的初试化器的调用时机
    数据加密小工具
    ASP.NET 开发知识小结
    做一个项目,平时都用到哪些工具提高效率(下)
    两道面试题目 关于new和override的
    js技巧,js找到html中的注释,js让客户端另存一段文本
    在适当的场合使用FlagsAttribute修饰枚举
  • 原文地址:https://www.cnblogs.com/qindongliang/p/4386728.html
Copyright © 2011-2022 走看看