一个字符编码引发的血案 - 走看看

zoukankan html css js c++ java

一个字符编码引发的血案
有个工具类逐行读文本文件，读取数据然后放入内存中。代码如下：
FSDataInputStream in = null; BufferedReader br = null; FileSystem fs = FileSystem.get(new URI(somePath), new Configuration()); in = fs.open(new Path(somePath)); br = new BufferedReader(new InputStreamReader(in)); while ((line = br.readLine()) != null) { counter++; dosomeoperation(); }
代码设计是既可单机执行，又可在hadoop集群中运行，可是天不遂人愿。。。

在linux单机运行时一切正常，当用于mapreduce中时总是缺少一些数据，具体查看时发现总行数比单机版的少。再测试发现在集群中时有的两行被认为是一行，这种情况全出现在前一行行尾有中文字符时，于是怀疑是编码问题。改一行代码之后断行正常并且运行正确：
br = new BufferedReader(new InputStreamReader(in, Charset.forName("utf8")));
即：显示设置reader的编码。

虽然问题解决了，但还是很困惑。此文件在linux本地文件系统中是utf8的编码，用hadoop fs -put到集群中。put过程中会改变文件的编码还是集群的默认编码不是utf8？如何查看集群的当前默认编码呢？
查看全文

相关阅读:
无锁并行框架构建复杂消费模型
 Disruptor框架EventProcessor和Workpool的使用
 .NET工作准备--04ASP.NET
.NET工作准备--03进阶知识
 .NET工作准备--02基础知识
 .NET工作准备--01前言
 Java核心编程快速入门
 IntellijIDEA快速入门(Windows版)
企业模式和设计模式快速入门
 架构设计深入学习02-概念架构与细化架构

原文地址：https://www.cnblogs.com/aprilrain/p/3057232.html

最新文章
leetcode面试准备:Multiply Strings
leetcode面试准备:Summary Ranges
RF变量
 打印函数名
 装饰器
 RF安装
 BuiltIn库
 pycharm快捷键
 pycharm配置
 java随机数

Copyright © 2011-2022 走看看