zoukankan      html  css  js  c++  java
  • Hive 操作与应用 词频统计

    一、hive用本地文件进行词频统计

    1.准备本地txt文件

    本地文件

    2.启动hadoop,启动hive

    启动hive

    3.创建数据库,创建文本表
    #查看数据库
    show databases;
    

    show datanases

    #创建数据库
    create database if not exists hive;
    

    create database

    #查看是否成功创建数据库
    show databases;
    

    查看是否成功创建数据库

    4.映射本地文件的数据到文本表中
    #查看表
    use hive;
    show tables;
    

    show tables

    #创建表
    create table if not exists pctext(line string);
    

    create table

    #查看是否成功创建表
    show tables;
    

    show datables

    #映射本地文件的数据到文本表中
    load data local inpath '/home/hadoop/HLH/hlh1.txt' into table pctext;
    

    load data

    #查看映射内容
    select * from pctext;
    

    select *

    5.hql语句进行词频统计交将结果保存到结果表中。
    #词频统计
    select split(line,'') as word from pctext;
    select explod(split(line,'')) as word from pctext;
    

    select split
    select expold
    select expold

    6.查看统计结果
    #查看统计结果
    select word,count(1) as count from (select explode(split(line,'')) as word from pctext) w group by word order by word;
    




    二、hive用HDFS上的文件进行词频统计

    1.准备电子书或其它大的文本文件
    2.将文本文件上传到HDFS上
    #上传本地文件
    hdfs dfs -put HLH HLH
    #查看上传结果
    hdfs dfs -ls HLH
    

    hdfs dfs -put

    3.创建文本表
    #创建数据表
    create table if not exists HLH(line string)
    #查看数据表是否创建成功
    show tables;
    

    create table

    4.映射HDFS中的文件数据到文本表中
    5.sql语句进行词频统计交将结果保存到结果表中
    6.查看统计结果
  • 相关阅读:
    oozie的简易安装
    flume监控一个linux指定的一个文件夹的文件信息
    FastDFS图片服务器java后台的简单调用
    java对象与json互转
    final关键字详解
    文件压缩和解压缩工具类
    web上下文监听器ServletContextListener
    基本类型的相互转换
    用java代码在创建hbase表时指定region的范围
    String类的一些常用操作方法
  • 原文地址:https://www.cnblogs.com/huanglianghao/p/14078786.html
Copyright © 2011-2022 走看看