zoukankan      html  css  js  c++  java
  • 第四部分 数据搜索之使用HBASE的API实现条件查询

    因为数据清洗部分需要用到Mapreduce,所以先解决hbase的问题,可以用命令先在hbase存一下简单的数据进行查询,之后只要替换数据就可以实现了原本功能

    在看该部分前,确保Hase API看了,懂了一点

    题目

    1. 使用HBASE的API实现条件查询功能,具体内容如下:

    (1)根据开始时间和结束时间搜索这段时间内的访问记录。输入信息为开始时间和结束时间,用‘|’字符隔开)

    (2)根据用户ID搜索该用户的访问记录。输入信息为一个或多个用户ID,用‘|’字符隔开(并)

    (3)根据关键字搜索含有该关键字的用户查询词记录。输入信息为一个或多个关键字,用‘|’字符隔开 (交)

    (4)根据关键字(如baidu)等搜索相关网站的URL访问记录,输入信息为一个或多个关键字,用‘|’字符隔开(交)

    (5)实现以上四个条件任意组合的联合搜索。四个条件之间用’+’字符隔开 (联合搜索要求所有条件同时满足)

    分析

    仔细分析一下这五个题目很像,就是用到了过滤器的知识,代码很类似。

    CompareFilter.CompareOp.
    LESS  <
    LESS_OR_EQUAL <=
    EQUAL =
    NOT_EQUAL <>
    GREATER_OR_EQUAL >=
    GREATER >
    

    以(4)为例子

    public static void selectURLs(String[] urls) throws IOException {
        //过滤连 MUST_PASS_ALL(and) MUST_PASS_ONE(or)
        FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ALL);
        //创建单列值过滤器
        for(String url:urls){
            SingleColumnValueFilter singleColumnValueFilter =
                    new SingleColumnValueFilter(Bytes.toBytes("hc"),Bytes.toBytes("URL"),
                            CompareFilter.CompareOp.EQUAL,new SubstringComparator(url));
            //添加到过滤器
            filterList.addFilter(singleColumnValueFilter);
        }
        Table table = HbaseUtils.getTable(Constants.TABLENAME);
        HbaseUtils.showFilter(table,filterList);
        HbaseUtils.close(table);
    }
    

    分析一下(5),比较坑的一点就是你可能会想到用split来切割

    如果输入条件+1++,最后得到的结果只有1,所以需要循坏字符串来切割

    String[] parts={"","","",""};
    int cnt = 0;
    for(int i=0;i<line.length();i++){
        if(line.charAt(i)!='+'){
            parts[cnt]+=line.charAt(i);
        }else{
            cnt++;
        }
    }
    
  • 相关阅读:
    servlet规范核心类图
    策略模式
    掌握Spark机器学习库-07-回归算法原理
    掌握Spark机器学习库-07-线性回归算法概述
    掌握Spark机器学习库-07-回归分析概述
    掌握Spark机器学习库-06-基础统计部分
    掌握Spark机器学习库-05-spark中矩阵与向量的使用
    测试开发要懂的设计模式知识
    数据可视化工具-ECharts
    掌握Spark机器学习库-02-mllib数据格式
  • 原文地址:https://www.cnblogs.com/10134dz/p/13234620.html
Copyright © 2011-2022 走看看