Java编程的逻辑 (64)

zoukankan html css js c++ java

Java编程的逻辑 (64)
本系列文章经补充和完善，已修订整理成书《Java编程的逻辑》，由机械工业出版社华章分社出版，于2018年1月上市热销，读者好评如潮！各大网店和书店有售，欢迎购买，京东自营链接：http://item.jd.com/12299018.html

对于处理文件，我们介绍了流的方式，57节介绍了字节流，58节介绍了字符流，同时，也介绍了比较底层的操作文件的方式，60节介绍了随机读写文件，61节介绍了内存映射文件，我们也介绍了对象的序列化/反序列化机制，62节介绍了Java标准的序列化，63节介绍了如何用Jackson处理其他序列化格式如XML/JSON和MessagePack。

在日常编程中，我们还经常会需要处理一些具体类型的文件，如CSV, Excel, HTML，直接使用前面几节介绍的方式来处理一般是很不方便的，往往有一些第三方的类库，基于之前介绍的技术，提供了更为方便易用的接口。

本节，我们就来简要介绍如何利用Java SDK和一些第三方类库，来处理如下五种类型的文件：
- 属性文件：属性文件是常见的配置文件，用于在不改变代码的情况下改变程序的行为。
- CSV：CSV是Comma-Separated Values的缩写，表示逗号分割值，是一种非常常见的文件类型，大部分日志文件都是CSV，CSV也经常用于交换表格类型的数据，待会我们会看到，CSV看上去很简单但处理的复杂性经常被低估。
- Excel：Excel大家都知道，在编程中，经常需要将表格类型的数据导出为Excel格式，以方便用户查看，也经常需要接受Excel类型的文件作为输入以批量导入数据。
- HTML：所有网页都是HTML格式，我们经常需要分析HTML网页，以从中提取感兴趣的信息。
- 压缩文件：压缩文件有多种格式，也有很多压缩工具，大部分情况下，我们可以借助工具而不需要自己写程序处理压缩文件，但某些情况，需要自己编程压缩文件或解压缩文件。
属性文件

属性文件一般很简单，一行表示一个属性，属性就是键值对，键和值用等号(=)或冒号(:)分隔，一般用于配置程序的一些参数。比如，在需要连接数据库的程序中，经常使用配置文件配置数据库信息，比如，有这么个文件config.properties，内容大概如下所示：
db.host = 192.168.10.100 db.port : 3306 db.username = zhangsan db.password = mima1234
处理这种文件使用字符流也是比较容易的，但Java中有一个专门的类java.util.Properties，它的使用也很简单，有如下主要方法：
public synchronized void load(InputStream inStream) public String getProperty(String key) public String getProperty(String key, String defaultValue)
load用于从流中加载属性，getProperty用于获取属性值，可以提供一个默认值，如果没有找到配置的值，则返回默认值。对于上面的配置文件，可以使用类似下面的代码进行读取：
Properties prop = new Properties(); prop.load(new FileInputStream("config.properties")); String host = prop.getProperty("db.host"); int port = Integer.valueOf(prop.getProperty("db.port", "3306"));
使用类Properties处理属性文件的好处是：
- 可以自动处理空格，我们看到分隔符=前后的空格会被自动忽略
- 可以自动忽略空行
- 可以添加注释，以字符#或!开头的行会被视为注释，进行忽略
不过，使用Properties也有限制，它不能直接处理中文，在配置文件中，所有非ASCII字符需要使用Unicode编码，比如，不能在配置文件中直接这么写：
name=老马
"老马"需要替换为Unicode编码，如下所示：
name=u8001u9A6C
在Java IDE如Eclipse中，如果使用属性文件编辑器，它会自动替换中文为Unicode编码，如果使用其他编辑器，可以先写成中文，然后使用JDK提供的命令native2ascii转换为Unicode编码，用法如下例所示：
native2ascii -encoding UTF-8 native.properties ascii.properties
native.properties是输入，其中包含中文，ascii.properties是输出，中文替换为了Unicode编码，-encoding指定输入文件的编码，这里指定为了UTF-8。

CSV文件

CSV是Comma-Separated Values的缩写，表示逗号分割值，一般而言，一行表示一条记录，一条记录包含多个字段，字段之间用逗号分隔。不过，一般而言，分隔符不一定是逗号，可能是其他字符如tab符' '、冒号':',分号';'等。程序中的各种日志文件通常是CSV文件，在导入导出表格类型的数据时，CSV也是经常用的一种格式。

CSV格式看上去很简单，比如，我们在58节保存学生列表时，使用的就是CSV格式，如下所示：
张三,18,80.9 李四,17,67.5
使用之前介绍的字符流，看上去就可以很容易处理CSV文件，按行读取，对每一行，使用String.split进行分割即可。但其实CSV有一些复杂的地方，最重要的是：
- 字段内容中包含分割符怎么办？
- 字段内容中包含换行符怎么办？
对于这些问题，CSV有一个参考标准，RFC-4180，https://tools.ietf.org/html/rfc4180，但实践中不同程序往往有其他处理方式，所幸的是，处理方式大体类似，大概有两种处理方式：
1. 使用引用符号比如"，在字段内容两边加上"，如果内容中包含"本身，则使用两个"
2. 使用转义字符，常用的是，如果内容中包含，则使用两个
比如，如果字段内容有两行，内容为：
hello, world abc "老马"
使用第一种方式，内容会变为：
"hello, world abc ""老马"""
使用第二种方式，内容会变为：
hello\, world \ abc "老马"
CSV还有其他一些细节，不同程序的处理方式也不一样，比如：
- 怎么表示null值？
- 空行和字段之间的空格怎么处理？
- 怎么表示注释？
由于以上这些复杂问题，使用简单的字符流就难以处理了。有一个第三方类库，Apache Commons CSV，对处理CSV提供了良好的支持，它的官网地址是：http://commons.apache.org/proper/commons-csv/index.html

本节使用其1.4版本，简要介绍其用法。如果使用Maven管理项目，可引入以下文件中的依赖：https://github.com/swiftma/program-logic/blob/master/csv_lib/dependencies.xml。如果非Maven，可从下面地址下载依赖库：https://github.com/swiftma/program-logic/tree/master/csv_lib

Apache Commons CSV中有一个重要的类CSVFormat，它表示CSV格式，它有很多方法以定义具体的CSV格式，如：
//定义分隔符 public CSVFormat withDelimiter(final char delimiter) //定义引号符 public CSVFormat withQuote(final char quoteChar) //定义转义符 public CSVFormat withEscape(final char escape) //定义值为null的对象对应的字符串值 public CSVFormat withNullString(final String nullString) //定义记录之间的分隔符 public CSVFormat withRecordSeparator(final char recordSeparator) //定义是否忽略字段之间的空白 public CSVFormat withIgnoreSurroundingSpaces(final boolean ignoreSurroundingSpaces)
比如，如果CSV格式定义为：使用分号;作为分隔符，"作为引号符，使用N/A表示null对象，忽略字段之间的空白，CSVFormat可以这样创建：
CSVFormat format = CSVFormat.newFormat(';') .withQuote('"').withNullString("N/A") .withIgnoreSurroundingSpaces(true);
除了自定义CSVFormat，CSVFormat类中也定义了一些预定义的格式，如：CSVFormat.DEFAULT, CSVFormat.RFC4180。

CSVFormat有一个方法，可以分析字符流：
public CSVParser parse(final Reader in) throws IOException
返回值类型为CSVParser，它有如下方法获取记录信息：
public Iterator<CSVRecord> iterator() public List<CSVRecord> getRecords() throws IOException public long getRecordNumber()
CSVRecord表示一条记录，它有如下方法获取每个字段的信息：
//根据字段列索引获取值，索引从0开始 public String get(final int i) //根据列名获取值 public String get(final String name) //字段个数 public int size() //字段的迭代器 public Iterator<String> iterator()
分析CSV文件的基本代码如下所示：
CSVFormat format = CSVFormat.newFormat(';') .withQuote('"').withNullString("N/A") .withIgnoreSurroundingSpaces(true); Reader reader = new FileReader("student.csv"); try{ for(CSVRecord record : format.parse(reader)){ int fieldNum = record.size(); for(int i=0; i<fieldNum; i++){ System.out.print(record.get(i)+" "); } System.out.println(); } }finally{ reader.close(); }
除了分析CSV文件，Apache Commons CSV也可以写CSV文件，有一个CSVPrinter，它有很多打印方法，比如：
//输出一条记录，参数可变，每个参数是一个字段值 public void printRecord(final Object... values) throws IOException //输出一条记录 public void printRecord(final Iterable<?> values) throws IOException
看个代码示例：
CSVPrinter out = new CSVPrinter(new FileWriter("student.csv"), CSVFormat.DEFAULT); out.printRecord("老马", 18, "看电影,看书,听音乐"); out.printRecord("小马", 16, "乐高;赛车;"); out.close();
输出文件student.csv中的内容为：
"老马",18,"看电影,看书,听音乐" "小马",16,乐高;赛车;
Excel

Excel主要有两种格式，后缀名分别为.xls和.xlsx，.xlsx是Office 2007以后的默认扩展名。Java中处理Excel文件及其他微软文档广泛使用POI类库，其官网是http://poi.apache.org/。

本节使用其3.15版本，简要介绍其用法。如果使用Maven管理项目，可引入以下文件中的依赖：https://github.com/swiftma/program-logic/blob/master/excel_lib/dependencies.xml。如果非Maven，可从下面地址下载依赖库：https://github.com/swiftma/program-logic/tree/master/excel_lib

使用POI处理Excel文件，有如下主要类:
- Workbook: 表示一个Excel文件对象，它是一个接口，有两个主要类HSSFWorkbook和XSSFWorkbook，前者对应.xls格式，后者对应.xlsx格式。
- Sheet: 表示一个工作表
- Row: 表示一行
- Cell: 表示一个单元格
比如，保存学生列表到student.xls，代码可以为：
public static void saveAsExcel(List<Student> list) throws IOException { Workbook wb = new HSSFWorkbook(); Sheet sheet = wb.createSheet(); for (int i = 0; i < list.size(); i++) { Student student = list.get(i); Row row = sheet.createRow(i); row.createCell(0).setCellValue(student.getName()); row.createCell(1).setCellValue(student.getAge()); row.createCell(2).setCellValue(student.getScore()); } OutputStream out = new FileOutputStream("student.xls"); wb.write(out); out.close(); wb.close(); }
如果要保存为.xlsx格式，只需要替换第一行为：
Workbook wb = new XSSFWorkbook();
使用POI也可以方便的解析Excel文件，使用WorkbookFactory的create方法即可，如下所示：
public static List<Student> readAsExcel() throws Exception { Workbook wb = WorkbookFactory.create(new File("student.xls")); List<Student> list = new ArrayList<Student>(); for(Sheet sheet : wb){ for(Row row : sheet){ String name = row.getCell(0).getStringCellValue(); int age = (int)row.getCell(1).getNumericCellValue(); double score = row.getCell(2).getNumericCellValue(); list.add(new Student(name, age, score)); } } wb.close(); return list; }
以上我们只是介绍了基本用法，如果需要更多信息，如配置单元格的格式、颜色、字体，可参看http://poi.apache.org/spreadsheet/quick-guide.html。

HTML

HTML是网页的格式，如果不熟悉，可以参看http://www.w3school.com.cn/html/html_intro.asp。在日常工作中，可能需要分析HTML页面，抽取其中感兴趣的信息。有很多HTML分析器，我们简要介绍一种，jsoup，其官网地址为https://jsoup.org/。

本节使用其1.10.2版本。如果使用Maven管理项目，可引入以下文件中的依赖：https://github.com/swiftma/program-logic/blob/master/html_lib/dependencies.xml。如果非Maven，可从下面地址下载依赖库：https://github.com/swiftma/program-logic/tree/master/html_lib。

我们通过一个简单例子来看jsoup的使用，我们要分析的网页地址是：http://www.cnblogs.com/swiftma/p/5631311.html

浏览器中看起来的样子是这样的(部分截图)：

将网页保存下来，其HTML代码看上去是这样的(部分截图)：

假定我们要抽取网页主题内容中每篇文章的标题和链接，怎么实现呢？jsoup支持使用CSS选择器语法查找元素，如果不了解CSS选择器，可参看http://www.w3school.com.cn/cssref/css_selectors.asp。

定位文章列表的CSS选择器可以是
#cnblogs_post_body p a
我们来看代码(假定文件为articles.html)：
Document doc = Jsoup.parse(new File("articles.html"), "UTF-8"); Elements elements = doc.select("#cnblogs_post_body p a"); for(Element e : elements){ String title = e.text(); String href = e.attr("href"); System.out.println(title+", "+href); }
输出为(部分)：
计算机程序的思维逻辑 (1) - 数据和变量, http://www.cnblogs.com/swiftma/p/5396551.html 计算机程序的思维逻辑 (2) - 赋值, http://www.cnblogs.com/swiftma/p/5399315.html
jsoup也可以直接连接URL进行分析，比如，上面代码的第一行可以替换为：
String url = "http://www.cnblogs.com/swiftma/p/5631311.html"; Document doc = Jsoup.connect(url).get();
关于jsoup的更多用法，请参看其官网。

压缩文件

压缩文件有多种格式，Java SDK支持两种：gzip和zip，gzip只能压缩一个文件，而zip文件中可以包含多个文件。下面我们介绍Java SDK中的基本用法，如果需要更多格式，可以考虑Apache Commons Compress：http://commons.apache.org/proper/commons-compress/

先来看gzip，有两个主要的类：
java.util.zip.GZIPOutputStream java.util.zip.GZIPInputStream
它们分别是OutputStream和InputStream的子类，都是装饰类，GZIPOutputStream加到已有的流上，就可以实现压缩，而GZIPInputStream加到已有的流上，就可以实现解压缩。比如，压缩一个文件的代码可以为：
public static void gzip(String fileName) throws IOException { InputStream in = null; String gzipFileName = fileName + ".gz"; OutputStream out = null; try { in = new BufferedInputStream(new FileInputStream(fileName)); out = new GZIPOutputStream(new BufferedOutputStream( new FileOutputStream(gzipFileName))); copy(in, out); } finally { if (out != null) { out.close(); } if (in != null) { in.close(); } } }
调用的copy方法是我们在57节介绍的。解压缩文件的代码可以为：
public static void gunzip(String gzipFileName, String unzipFileName) throws IOException { InputStream in = null; OutputStream out = null; try { in = new GZIPInputStream(new BufferedInputStream( new FileInputStream(gzipFileName))); out = new BufferedOutputStream(new FileOutputStream( unzipFileName)); copy(in, out); } finally { if (out != null) { out.close(); } if (in != null) { in.close(); } } }
zip文件支持一个压缩文件中包含多个文件，Java SDK主要的类是：
java.util.zip.ZipOutputStream java.util.zip.ZipInputStream
它们也分别是OutputStream和InputStream的子类，也都是装饰类，但不能像GZIPOutputStream/GZIPInputStream那样简单使用。

ZipOutputStream可以写入多个文件，它有一个重要方法：
public void putNextEntry(ZipEntry e) throws IOException
在写入每一个文件前，必须要先调用该方法，表示准备写入一个压缩条目ZipEntry，每个压缩条目有个名称，这个名称是压缩文件的相对路径，如果名称以字符'/'结尾，表示目录，它的构造方法是：
public ZipEntry(String name)
我们看一段代码，压缩一个文件或一个目录：
public static void zip(File inFile, File zipFile) throws IOException { ZipOutputStream out = new ZipOutputStream(new BufferedOutputStream( new FileOutputStream(zipFile))); try { if (!inFile.exists()) { throw new FileNotFoundException(inFile.getAbsolutePath()); } inFile = inFile.getCanonicalFile(); String rootPath = inFile.getParent(); if (!rootPath.endsWith(File.separator)) { rootPath += File.separator; } addFileToZipOut(inFile, out, rootPath); } finally { out.close(); } }
参数inFile表示输入，可以是普通文件或目录，zipFile表示输出，rootPath表示父目录，用于计算每个文件的相对路径，主要调用了addFileToZipOut将文件加入到ZipOutputStream中，代码为：
private static void addFileToZipOut(File file, ZipOutputStream out, String rootPath) throws IOException { String relativePath = file.getCanonicalPath().substring( rootPath.length()); if (file.isFile()) { out.putNextEntry(new ZipEntry(relativePath)); InputStream in = new BufferedInputStream(new FileInputStream(file)); try { copy(in, out); } finally { in.close(); } } else { out.putNextEntry(new ZipEntry(relativePath + File.separator)); for (File f : file.listFiles()) { addFileToZipOut(f, out, rootPath); } } }
它同样调用了copy方法将文件内容写入ZipOutputStream，对于目录，进行递归调用。

ZipInputStream用于解压zip文件，它有一个对应的方法，获取压缩条目：
public ZipEntry getNextEntry() throws IOException
如果返回值为null，表示没有条目了。使用ZipInputStream解压文件，可以使用类似如下代码：
public static void unzip(File zipFile, String destDir) throws IOException { ZipInputStream zin = new ZipInputStream(new BufferedInputStream( new FileInputStream(zipFile))); if (!destDir.endsWith(File.separator)) { destDir += File.separator; } try { ZipEntry entry = zin.getNextEntry(); while (entry != null) { extractZipEntry(entry, zin, destDir); entry = zin.getNextEntry(); } } finally { zin.close(); } }
调用extractZipEntry处理每个压缩条目，代码为：
private static void extractZipEntry(ZipEntry entry, ZipInputStream zin, String destDir) throws IOException { if (!entry.isDirectory()) { File parent = new File(destDir + entry.getName()).getParentFile(); if (!parent.exists()) { parent.mkdirs(); } OutputStream entryOut = new BufferedOutputStream( new FileOutputStream(destDir + entry.getName())); try { copy(zin, entryOut); } finally { entryOut.close(); } } else { new File(destDir + entry.getName()).mkdirs(); } }
小结

本节简要介绍了五种常见文件类型的处理：属性文件、CSV、EXCEL、HTML和压缩文件，介绍了基本用法和更多信息的参考链接。

至此，关于文件的所有部分，我们就介绍完了。

从下一节开始，让我们一起探索并发和线程的世界！

(与其他章节一样，本节所有代码位于 https://github.com/swiftma/program-logic)

----------------

未完待续，查看最新文章，敬请关注微信公众号“老马说编程”(扫描下方二维码)，从入门到高级，深入浅出，老马和你一起探索Java编程及计算机技术的本质。用心原创，保留所有版权。
查看全文

相关阅读:
Contest Record
Work at DP
波兰题目补全计划
 BZOJ #3746: [POI2015]Czarnoksiężnicy okrągłego stołu 动态规划
 【HEOI 2018】制胡窜
 【HEOI 2018】林克卡特树
 省选之前的未完成的计划(截至到省选)
小学半平面交
 小学扩展欧拉定理
 【复习】高斯消元解图上期望概率

原文地址：https://www.cnblogs.com/swiftma/p/6379834.html