昨天第三天没干什么实事(就是一直在测试新的加载方法,最后发现不行,scala的map不能套map,不能引入外部变量添加数据,否则都会被无效化处理),一直困扰了我的有个问题,就是spark不能过滤Mysql拉取的数据,只要有Null的就不可以,使用" ",null,isEmplty都试过了,都是不行。所以我最后没有办法了
只好去mysql里用sql清空了null字段
今天的任务就是从hbase导入数据到Mysql,我先跑个demo提高一下自信心。
最后发现导出hive竟然需要shecma表的结构,我去hive.site xml里一看,我擦,它的名字居然叫mysql1,是一个服务器的映射名称,我上哪找去,公司也没给我
于是最后问老大要了条数据,csv的,然后把它改成了txt 在Navicat里,进行了导入分割,最后一个字段太大了28k的json字符串,我修改为了Longtext最后导进去了。
今天最麻烦的就是JSON了,28k的json,6个层级,只是一条数据里的一个字段啊。2W多个字。
还好有这个网站https://www.json.cn/帮我理清除层级。
今天尝试各种JSON搞了半天,因为以前根本不熟悉,还好有个大学同学以前搞过java的,它推荐用fastJson,我就根据fastJSON,我弄了个scala的。不,是我自己领悟出来的。它就那几个方法,聚精会神一弄就好了,网上都是些狗屁
浪费了我好几个小时的查询时间,现在该干大活了,就是在fastJSON中把数据map替换掉(这步最复杂),在返着来一遍封装,封装完后和原来的字段一起丢到样例类中,包装完毕扔到mysql。
今天就这样吧。。加油。
DELETE FROM checkindexname WHERE t_iteam IS NULL
草删除既然是is NULL