zoukankan      html  css  js  c++  java
  • 将字符串向hdfs中写入,出现中文乱码!

    jsonObject.toString():需要处理的json对象转成的字符串
    "/testData/ExtractKWByOnce.txt":写入hdfs中的目标路径
    try {
                Configuration configuration=new Configuration();
                InputStream inputStream=new BufferedInputStream(
                        new ByteArrayInputStream(jsonObject.toString().getBytes("")) );//打开一个BufferedInputStream字节输入流
    
                FileSystem fs=FileSystem.get(URI.create("hdfs://localtion:8020"),configuration);
    //这里是creat()方法表示新创建一个文件,如果想在一个文件上追加,请用append()方法。 FSDataOutputStream fsDataOutputStream=fs.create(new Path("/testData/ExtractKWByOnce.txt")); IOUtils.copyBytes(inputStream,fsDataOutputStream,1024,true); fsDataOutputStream.close(); fs.close(); inputStream.close(); } catch (IOException e) { e.printStackTrace(); }

    用此方法可能会出现 中文乱码问题,hdfs上的文件和自己期待存入的内容有差异。

    可以在 jsonObject.toString().getBytes("") 处将我们的编码格式指定为:

    jsonObject.toString().getBytes("GBK")

    基本可以解决问题

    ----------------------------------------------------------------------------------------------------------------------------

    今日发现,在GBK编码下,从浏览器直接打开hdfs文件不会出现乱码,但是在shell终端通过#>hdfs dfs -cat xxx 命令打开的hdfs文件出现了乱码问题。

    将编码改回UTF-8,从浏览器直接打开hdfs文件会出现乱码,但是在shell终端通过#>hdfs dfs -cat xxx 命令打开的hdfs文件不出现乱码。

    所以具体选择哪种编码,要看实际需求。

  • 相关阅读:
    linux常用快捷键
    msf远程调用OpenVAS
    (三)漏洞平台搭建-xssplatform
    (二)漏洞平台搭建-sql-lab
    (一)漏洞平台搭建-DVWA
    msf永恒之蓝漏洞利用命令总结
    解决kali无法全屏问题
    centos7源码安装mysql数据库
    【多数人的误区】十二生肖属相不是从春节开始算的!
    python元组不可变是指什么不可变
  • 原文地址:https://www.cnblogs.com/xavier-xd/p/10551262.html
Copyright © 2011-2022 走看看