文本流
前面讨论的是二进制的输入输出,如果直接打开文件,会发现里面不是我们能读懂的内容。(用记事本打开里面是些空格)虽然二进制I/O速度快且效率高,但不易于人们阅读。java中的字符串,使用的是Unicode字符,例如字符串"1234"在字符编码中实际上是【00 31 00 32 00 33 00 34】,然而,Java所运行的环境有自己的字符编码,例如Windows用ASCII码,编码为【31 32 33 34】。为了在运行环境的编码和Unicode编码之间转换,Java提供了一套流过滤器。例如InputStreamReader/OutputStreamWriter
InputStreamReader in = new InputStreamReader(System.in);//从控制台读入,并自动将其转化为Unicode码。
字符集
在JDK1.4中引入的java.nio包通过引入Charset类来统一字符集的转换。
字符集给出了双字节Unicode码序列与在本地字符编码中采用的字节序列间的映射。一旦有了字符集,就可以用它在Unicode字符串和字节序列编码之间进行转换。
文本输出
进行文本输出时,应该使用PrintWriter。
PrintWriter out = new PrintWriter(new FileOutputStream("employee.txt"));
PrintWriter(OutputStream)构造器自动增加一个OutputStreamWriter来将Unicode字符转换为本地字符。
PrintWriter中有print方法和println方法,用以写入数据。
String name = "Harry Hacker"; double salary = 75000; out.print(name); out.print(' '); out.println(salary);
这将下列字符
Harry Hacker 75000
写入输出流out中。随后字符被转换为字节病最终进入文件employee.txt中。
PrintWriter总是缓冲的,可以通过PrintWriter(Writer, boolean)构造器中的第二个参数来开启或关闭自动刷新。如果开启,那么println将刷新缓冲区。
文本输入
BufferedReader类,readLine方法,以行的方式读取文本。
BufferedReader in = new BufferedReader(new FileReader("employee.txt"));
如果没有输入数据,readLine方法返回null。
FileReader类已经把本地字节转化为Unicode字符。对于其他输入源,需要使用InputStreamReader
BufferedReader in = BufferedReader(new InputStreamReader(System.in));
流的使用
分隔符输出,例如Employee类的如下记录:
Harry Hacker|35500|1989|10|1
Carl Cracker|75000|1987|12|15
Tony Tester|38000|1990|3|15
每个实例域由分隔符【|】隔开。
实现的方法是在Employee类中增加一个方法:writeData
public void writeData(PrintWriter out) throws IOException { GregorianCalendar calendar = new GregorianCalendar(); calendar.setTime(hireDay); out.println(name + "|" + salary + "|" + calendar.get(Calendar.YEAR) + "|" + (calendar.get(Calendar.MONTH) + 1) + "|" + calendar.get(Calendar.DAY_OF_MONTH)); }
Java中,处理带分隔符的字符串,使用StringTokenizer类。(C++中使用string类的find和substr方法)
StringTokenizer tokenizer = new StringTokenizer(line, "|");
也可以在一个字符串里指定多个分隔符,例如:
StringTokenizer tokenizer = new StringTokenizer(line, "|,;");
如果不指定分隔符集合,默认的就是" ",即所有的空白字符(空格、tab、新行,回车)。
while(tokenizer.hasMoreTokens()) { String token = tokenizer.nextToken(); process token; }
这与C语言中的strtok函数类似
char *p = strtok("a.b.c.d.e",".") while(p != NULL) { printf("%s ",p); p = strtok(NULL, "."); }
下面,在Employee类中实现一个readData的方法,来读取带分隔符的数据。
public void readData(BufferedReader in) throws IOException { String s = in.readLine(); StringTokenizer t = new StringTokenizer(s, "|"); name = t.nextToken(); salary = Double.parseDouble(t.nextToken()); int y = Integer.parseInt(t.nextToken()); int m = Integer.parseInt(t.nextToken()); int d = Integer.parseInt(t.nextToken()); GregorianCalendar calendar = new GregorianCalendar(y,m-1,d); //GregorianCalendar uses 0 = January hireDay = calendar.getTime(); }
随机存取流
如果每一条记录的长度不相等,就没法用RandomAccessFile类的seek方法来定位第n条记录。
为了让每一条记录长度相等,我们需要自己定义一个方法。
static void writeFixedString(String s, int size, DataOutput out) throws IOException { int i; for(int i=0; i<size; i++) { if(i<s.length()) { out.writeChar(s.charAt(i)); } else { out.writeChar(0); } } }
而读取则需要读到一个0值字符为止。
static String readFixedString(int size, DataInput in)throws IOException { StringBuilder b = new StringBuilder(size); int i=0; while(i<size) { char ch = in.readChar(); i++; if(0 == ch) { break; } else { b.append(ch); } } in.skipBytes(2*(size-i)); return b.toString(); }
这里的StringBuilder类比String类的优势在于,如果不断对String进行【+】拼接,那么字符串的空间要一次一次重新分配。
java.lang.StringBuilder
StringBuilder()
StringBuilder(int length)//初始长度length
StringBuilder(String str)//初始内容str
int length()//返回builder的长度
StringBuilder append(String str/char c)//追加字符串str或字符c
void setCharAt(int i, char c)//将第i个代码单元设置成c
StringBuilder insert(int offset, String str/char c)//在offset位置插入一个字符串str或者字符c
StringBuilder delete(int startIndex, int endIndex)//删除从startIndex到endIndex-1的内容
String toString()//返回一个与builder内容相同的字符串
对象流
如果存储同类型的数据,使用固定长度的记录格式是一个很好的选择。但当类型不同,例如既有Employee类,又有其子类Manager类时,就不能这么做了。
存储对象的方法是序列化:序列化就是将一个对象的状态(各个成员变量)保存起来,然后在适当的时候再获得。
序列化分为两大部分:序列化和反序列化。序列化是这个过程的第一部分,将数据分解成字节流,以便存储在文件中或在网络上传输。反序列化就是打开字节流并重构对象。对象序列化不仅要将基本数据类型转换成字节表示,有时还要恢复数据。
序列化的什么特点:
如果某个类能够被序列化,其子类也可以被序列化。声明为static和transient类型的成员数据不能被序列化。因为static代表类的状态, transient代表对象的临时数据。
什么时候使用序列化:
一:对象序列化可以实现分布式对象。主要应用例如:RMI要利用对象序列化运行远程主机上的服务,就像在本地机上运行对象时一样。
二:java对象序列化不仅保留一个对象的数据,而且递归保存对象引用的每个对象的数据。可以将整个对象层次写入字节流中,可以保存在文件中或在网络连接上传递。利用对象序列化可以进行对象的"深复制",即复制对象本身及引用的对象本身。序列化一个对象可能得到整个对象序列。
需要序列化的类必须实现Serializable接口,该接口没有任何方法,所以不需要对类进行任何修改。
一个类实现了Serializable接口后,就可以通过ObjectOutputStream类的对象进行存储,通过ObjectInputStream类的对象读取:
ObjectOutputStream out = new ObjectOutputStream(new FileOutputStream("employee.dat")); Employee harry = new Employee("Harry Hacker",50000,1989,10,1); Manager boss = new Manager("Carl Cracker",80000,1987,12,25); out.writeObject(harry); out.writeObject(boss);
ObjectInputStream in = new ObjectInputStream(new FileInputStream("Employee.dat")); Employee e1 = (Employee) in.readObject(); Employee e2 = (Employee) in.readObject();
读取的时候需要注意,读的顺序与写入的顺序是一致的,且readObject方法返回的是Object类型的对象,需要进行转化。如果需要动态查询对象的类型,可以使用getClass方法。
对象流类实现了DataInput/DataOutput接口,对于基本类型(非对象)的值,可以使用writeInt/readInt等方法。
前面提到过,不想被序列化的成员变量要声明为transient类型,实际上,Java中有些包里的类是不能被序列化的,当这些类的对象是另一个类的数据成员时,在类中就要声明为transient。否则对整个类进行序列化时会抛出NotSerializableException异常。如果想记录这些不能被序列化的对象,可以通过自己定义readObject和writeObject方法,来取代默认的这两种方法:这两种方法定义在被序列化的类中。
例如:LabeledPoint类中包含不能被序列化的Point2D.Double类的对象,现在要序列化LabeledPoint类的对象,就需要两步:
1.将Point2D.Double类的对象声明为transient类型;
2.在LabeledPoint类中定义自己的readObject/writeObject方法。
public class LabeledPoint implements Serializable { ... private void writeObject(ObjectOutputStream out)throws IOException { out.defaultWriteObject(); out.writeDouble(point.getX()); out.writeDouble(point.getY()); } private void readObject(ObjectInputStream out)throws IOException { in.defaultWriteObject(); double x = in.readDouble(); double y = in.readDouble(); point = new Point2D.Double(x,y); } private String label; private transient Point2D.Double point; }
类可以定义自己的机制,而不需要让序列化机制存储和恢复对象数据。要做到这点,必须实现Externalizable接口。这就需要定义下面两个方法:
public void readExternal(ObjectInputStream in) throws IOException, ClassNotFoundException;
public void writeExternal(ObjectOutputStream out) throws IOException;
不同于上一节介绍的readObject和writeObject方法,这些方法将负责整个对象(包括超类数据)的保存和恢复。下面是Employee类实现的这些方法:
public void readExternal(ObjectInputStream in) throws IOException { name = s.readUTF(); salary = s.rreadDouble(); hireDay = new Date(s.readLong()); } public void writeExternal(ObjectOutputStream out) throws IOException { s.writeUTF(name); s.writeDouble(salary); s.writeLong(hireDay.getTime()); }
注意:readObject/writeObject方法是私有的,并且只能被序列化机制调用;readExternal/writeExternal方法是共有的。