使用 python 批量插入 hive - 走看看

zoukankan html css js c++ java

使用 python 批量插入 hive
1.环境准备.

需要 python3.6 最好是安装anaconda

用anaconda navigator 安装这个 , 当然 , 纯 python环境下也能安装这个包

2. 插入hive 换个思路 , 直接插入到hive的表的仓库中 , 也就是hdfs上存储hive文件的地方
from hdfs.client import Client import time t1=time.time() client = Client("http://192.168.1.102:50070") s="100,1094,baumax,58" filepath="/user/hive/warehouse/hadoop.db/kk/t.txt" t1 = time.time() client.write(filepath, s,overwrite=False,append=True) print('OK') t2=time.time() print(t2-t1)
这里我使用的是追加 ,append , 我直接定位到了文件 , 可以添加到里面 , 当然 ,

这个HDFS client也是能建文件夹 , 建文件 , 不追加新建文件等等 ,

这只是一种了思路.

最后我去HDFS上看了下 t.txt 确实增加了一行 .

并且在hive的 select * from 表名 ,也能查到新加的

可以这样理解 , hive的表结构存储在mysql中 ,但是表数据存储在hdfs上 , 且定位是文件夹 ,只要把数据放进去

结论: 通过 LOAD DATA INPATH '' INTO TABLE

等同于手动追加 hive的表文件所在的文件夹

使用注意: 理论上追加的大小是不做限制的 , 读取文件 ,追加就行 .
查看全文

相关阅读:
vscode task 与 linux shell编程小记
 Python并行计算专题
 分类任务评价指标（Accuracy / Precision / Recall / F1 / ROC / AUC）
JAVA笔记 10.04
MySQL5.7忘记密码 Linux
MYSQL 获取最近多少天时间列表
 Volatile 关键字的原理和实现
 安装正常APP时被小米提醒是诈骗APP不允许安装的问题
 【瞎口胡】网络流基础
 题解 Luogu P4774 [NOI2018]屠龙勇士

原文地址：https://www.cnblogs.com/alpha-cat/p/12939020.html

Copyright © 2011-2022 走看看