zoukankan      html  css  js  c++  java
  • 用java程序复制UTF-8文件后开头出现?号

    原始文件内容是这样的:

    1000|1.0.0
    313|20140814|2
    银行流水号|银行交易时间|交易日期|银行虚拟账号|银行账号|银行账号类型|姓名|性别|证件类型|证件号码|证件有效期限|电话|邮箱|省|
    
    市|区|详细地址|客户风险等级|第三方产品代码
    31301201408140000002802313000000|20140814101832|20140814|00000000002014081200000000000355|6216920000065381|01|000|0|00|
    
    371321198812266128|20150202|15811111111|abc@gmail.com||11|||8|000888

    我们将其另存为UTF-8格式,并用如下java代码读取文件

    package com.szkingdom.leejun;
    
    import java.io.File;
    import java.io.FileInputStream;
    import java.io.IOException;
    import java.util.Arrays;
    
    public class FileBomTest {
    	public static void main(String[] args) throws IOException {
    		File file = new File("F:\haha.txt");
    		FileInputStream fileInputStream=new FileInputStream(file);
    		byte[] b=new byte[1024];
    		byte[] B=new byte[0];
    		int read =-1; 
    		while ((read=fileInputStream.read(b))>-1) {
    			int i=B.length;
    			B=Arrays.copyOf(B, B.length+read);
    			for(int j=0;j<read;j++){
    				B[i+j]=b[j];
    			}
    		}
    		
    		System.out.println(new String(B,"UTF-8"));
    	}
    }
    


    这时候控制台上显示是这样的:

    ?1000|1.0.0
    313|20140814|2
    银行流水号|银行交易时间|交易日期|银行虚拟账号|银行账号|银行账号类型|姓名|性别|证件类型|证件号码|证件有效期限|电话|邮箱|省|市|区|详细地址|客户风险等级|第三方产品代码
    31301201408140000002802313000000|20140814101832|20140814|00000000002014081200000000000355|6216920000065381|01|000|0|00|371321198812266128|20150202|15811111111|abc@gmail.com||11|||8|000888
    

    在最前面多了一个?号这是为什么。原因其实很简单,当我们再windows下另存为时windows给UTF-8添加了BOM头。导致了读取异常的现象。我们用16进制打开文件可以看到:EF BB BF 这几个前缀。既然知道出现?号的原理了,那么我们只需要判断是否有该前缀,若有则跳过相应的字符就行了。或者可以用外部工具类读取。


  • 相关阅读:
    oracle 关于对时间操作的汇总
    rank() partition by 排名次
    oracle 行列转换
    一篇介绍jquery很好的
    基于文件,对文件内容进行增删该查
    js对象的定义及处理
    一篇很好介绍stringBuffer和StringBuilder的区别--来自百度
    关于正则表达式的一个简单应用
    关于Json处理的两个实例
    关于wait和notify的用法
  • 原文地址:https://www.cnblogs.com/leejuen/p/5547472.html
Copyright © 2011-2022 走看看