zoukankan html css js c++ java

FileInputStream读中文乱码问题

1、前提

以读取编码是GBK的文件为案例，文件内容只有中文和中文符号

2、原因

FileInputStream读中文乱码是因为一个中文对应两个字节存储（负数），也就是说，读取对应中文的字节数应该是偶数；而英文对应一个字节存储。FileInputStream每次读取一个数组长度的字节时，读取的中文字节数可能是奇数，也就是只读到中文的一半字节，出现乱码。

3、解决方法

一次读取所有字节，此方法不靠谱，因为不确定总字节数。
在输出时进行判断，遍历数组判断负数的个数，如果是奇数，说明读取到中文的一半字节，对数组进行扩容再输出；否则正常输出

4、代码案例

package 第二题;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.UnsupportedEncodingException;
import java.util.Arrays;

public class MainTest {

    public static void main(String[] args) throws UnsupportedEncodingException {
        // 创建File对象
        File file = new File("D:\filetest\file4.txt");
        FileInputStream fileInputStream = null;
        try {
            // 新建一个FileInputStream对象
            fileInputStream = new FileInputStream(file);
            // 新建一个字节数组
            byte[] buf = new byte[2];
            // read(buf)：此方法的返回值就是当前读取的字节个数，将数据读取到buf数组
            // 将readLen变量也就是read方法的返回值，当此变量等于-1，则读到文件末尾
            int readLen = -1;
             //读取文件数据
            while ((readLen = fileInputStream.read(buf)) != -1) {   
                int pos=0;//记录负数的个数
                for(byte v:buf)
                {
                    if(v<0)
                    {
                        pos++;  
                    }
                }
                //负数个数为偶数，读取完整，没有读取到半个中文
                if(pos%2==0)
                {
                    // 将字节数组转换成字符串
                    String content = new String(buf, 0, readLen);
                    System.out.print(content);
                }else {//负数个数为奇数，读取不完整，会乱码
                  //再读取下一位字节
                    int nextByteValue=fileInputStream.read();
                    int nextLen=readLen+1;
                    //字节数组扩容一位
                    buf= Arrays.copyOf(buf,nextLen);
                    buf[readLen]= (byte) nextByteValue;
                    String content=new String(buf,0,nextLen);
                    System.out.print(content);
                    //奇数，字节补全
                    //针对数组扩容一个字节单元
                /*  buf=Arrays.copyOf(buf, readLen+1);
                    int nextByteValue=fileInputStream.read();
                    buf[readLen]= (byte) nextByteValue;
                    String content = new String(buf, 0, readLen);
                    System.out.print(content);*/
                }                       
            }
        } catch (FileNotFoundException e) {
            // 输出堆栈信息
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            try {
                // 文件输入流关闭（释放资源）
                fileInputStream.close();
            } catch (IOException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            }
        }
    }
}

5、补充内容

ANSI编码代表本地编码，中文默认是GBK。 https://www.cnblogs.com/yaya-yaya/p/5768616.html编码参考资料

记得快乐

查看全文

相关阅读:
HADOOP security
apache sentry
spark-deployment-modes-cluster-or-client
Hadoop，Spark,Flink 相关KB
OSGi类加载流程
 why-the-default-authentication-hadoop-is-unsecured ?
Spring源码情操陶冶-PathMatchingResourcePatternResolver路径资源匹配溶解器
 maven跳过单元测试-maven.test.skip和skipTests的区别
 Maven+eclipse+jetty配置
 分布式事务资料

原文地址：https://www.cnblogs.com/Y-wee/p/13414361.html