zoukankan      html  css  js  c++  java
  • Java学习笔记

    java简介

    Java是由Sun Microsystems公司于1995年5月推出的Java面向对象程序设计语言和Java平台的总称。由James Gosling和同事们共同研发,并在1995年正式推出。

    Java分为三个体系:

    • JavaSE(J2SE)(Java2 Platform Standard Edition,java平台标准版)
    • JavaEE(J2EE)(Java 2 Platform,Enterprise Edition,java平台企业版)
    • JavaME(J2ME)(Java 2 Platform Micro Edition,java平台微型版)。

    2005年6月,JavaOne大会召开,SUN公司公开Java SE 6。此时,Java的各种版本已经更名以取消其中的数字"2":J2EE更名为Java EE, J2SE更名为Java SE,J2ME更名为Java ME。

    初学者学Java,经常听到JDK、JRE这些名词,它们到底是啥?

    • JDK:Java Development Kit
    • JRE:Java Runtime Environment

    简单地说,JRE就是运行Java字节码的虚拟机。但是,如果只有Java源码,要编译成Java字节码,就需要JDK,因为JDK除了包含JRE,还提供了编译器、调试器等开发工具。

    JDK

    细心的童鞋还可以在JAVA_HOME的bin目录下找到很多可执行文件:

    • java:这个可执行程序其实就是JVM,运行Java程序,就是启动JVM,然后让JVM执行指定的编译后的代码;
    • javac:这是Java的编译器,它用于把Java源码文件(以.java后缀结尾)编译为Java字节码文件(以.class后缀结尾);
    • jar:用于把一组.class文件打包成一个.jar文件,便于发布;
    • javadoc:用于从Java源码中自动提取注释并生成文档;
    • jdb:Java调试器,用于开发阶段的运行调试。

    安装java

    https://www.runoob.com/java/java-environment-setup.html

    HelloWorld

    Java源码本质上是一个文本文件,我们需要先用javac把Hello.java编译成字节码文件Hello.class,然后,用java命令执行这个字节码文件:
    javatest.java

    public class javatest {
        public static void main(String[] args) {
            System.out.println("Hello World");
        }
    }
    

    编译:

    javac javatest.java
    

    执行:
    注意:给虚拟机传递的参数Hello是我们定义的类名,虚拟机自动查找对应的class文件并执行。
    有一些童鞋可能知道,直接运行java Hello.java也是可以的:

    java javatest
    //java javatest.java
    
    Hello World
    

    源文件声明规则

    在本节的最后部分,我们将学习源文件的声明规则。当在一个源文件中定义多个类,并且还有import语句和package语句时,要特别注意这些规则。

    • 一个源文件中只能有一个public类
    • 一个源文件可以有多个非public类
    • 源文件的名称应该和public类的类名保持一致。例如:源文件中public类的类名是Employee,那么源文件应该命名为Employee.java。
    • 如果一个类定义在某个包中,那么package语句应该在源文件的首行。
    • 如果源文件包含import语句,那么应该放在package语句和类定义之间。如果没有package语句,那么import语句应该在源文件中最前面。
    • import语句和package语句对源文件中定义的所有类都有效。在同一源文件中,不能给不同的类不同的包声明。

    类有若干种访问级别,并且类也分不同的类型:抽象类和final类等。

    除了上面提到的几种类型,Java还有一些特殊的类,如:内部类、匿名类。

    Java基础

    数据类型

    基本数据类型

    基本数据类型是CPU可以直接进行运算的类型。Java定义了以下几种基本数据类型:

    • 整数类型:byte,short,int,long
    • 浮点数类型:float,double
    • 字符类型:char
    • 布尔类型:boolean

    引用类型

    除了上述基本类型的变量,剩下的都是引用类型。例如,引用类型最常用的就是String字符串:

    String s = "hello";
    

    引用类型的变量类似于C语言的指针,它内部存储一个“地址”,指向某个对象在内存的位置,后续我们介绍类的概念时会详细讨论。

    常量

    定义变量的时候,如果加上final修饰符,这个变量就变成了常量:

    final double PI = 3.14; // PI是一个常量
    

    var关键字

    自动推断类型。

    运算

    运算优先级

    • ()
    • ! ~ ++ --
    • * / %
    • + -
    • << >> >>>
    • &
    • |
    • += -= *= /=

    浮点数运算

    浮点数运算和整数运算相比,只能进行加减乘除这些数值计算,不能做位运算和移位运算。

    在计算机中,浮点数虽然表示的范围大,但是,浮点数有个非常重要的特点,就是浮点数常常无法精确表示。

    举个栗子:

    浮点数0.1在计算机中就无法精确表示,因为十进制的0.1换算成二进制是一个无限循环小数,很显然,无论使用float还是double,都只能存储一个0.1的近似值。但是,0.5这个浮点数又可以精确地表示。

    public class main {
        public static void main(String[] args) {
            double x = 1.0 / 10;
            double y = 1 - 9.0 / 10;
            // 观察x和y是否相等:
            System.out.println(x);
            System.out.println(y);
        }
    }
    
    0.1
    0.09999999999999998
    

    由于浮点数存在运算误差,所以比较两个浮点数是否相等常常会出现错误的结果。正确的比较方法是判断两个浮点数之差的绝对值是否小于一个很小的数:

    // 比较x和y是否相等,先计算其差的绝对值:
    double r = Math.abs(x - y);
    // 再判断绝对值是否足够小:
    if (r < 0.00001) {
        // 可以认为相等
    } else {
        // 不相等
    }
    

    浮点数在内存的表示方法和整数比更加复杂。Java的浮点数完全遵循IEEE-754标准,这也是绝大多数计算机平台都支持的浮点数标准表示方法。

    溢出

    整数运算在除数为0时会报错,而浮点数运算在除数为0时,不会报错,但会返回几个特殊值:

    • NaN表示Not a Number
    • Infinity表示无穷大
    • -Infinity表示负无穷大

    例如:

    double d1 = 0.0 / 0; // NaN
    double d2 = 1.0 / 0; // Infinity
    double d3 = -1.0 / 0; // -Infinity
    

    这三种特殊值在实际运算中很少碰到,我们只需要了解即可。

    输入和输出

    输出

    Java提供了格式化输出的功能System.out.printf。为什么要格式化输出?因为计算机表示的数据不一定适合人来阅读.

    Java的格式化功能提供了多种占位符,可以把各种数据类型“格式化”成指定的字符串:

    占位符 说明
    %d 格式化输出整数
    %x 格式化输出十六进制整数
    %f 格式化输出浮点数
    %e 格式化输出科学计数法表示的浮点数
    %s 格式化字符串

    占位符本身还可以有更详细的格式化参数。下面的例子把一个整数格式化成十六进制,并用0补足8位:

    public class Main {
        public static void main(String[] args) {
            int n = 12345000;
            System.out.printf("n=%d, hex=%08x", n, n); // 注意,两个%占位符必须传入两个数
        }
    }
    

    输入

    import java.util.Scanner;
    
    public class Main {
        public static void main(String[] args) {
            Scanner scanner = new Scanner(System.in); // 创建Scanner对象
            System.out.print("Input your name: "); // 打印提示
            String name = scanner.nextLine(); // 读取一行输入并获取字符串
            System.out.print("Input your age: "); // 打印提示
            int age = scanner.nextInt(); // 读取一行输入并获取整数
            System.out.printf("Hi, %s, you are %d
    ", name, age); // 格式化输出
        }
    }
    

    条件控制

    引用类型相等性判断

    在Java中,判断值类型的变量是否相等,可以使用运算符。但是,判断引用类型的变量是否相等,表示“引用是否相等”,或者说,是否指向同一个对象。例如,下面的两个String类型,它们的内容是相同的,但是,分别指向不同的对象,用==判断,结果为false:

    public class Main {
        public static void main(String[] args) {
            String s1 = "hello";
            String s2 = "HELLO".toLowerCase();
            System.out.println(s1);
            System.out.println(s2);
            if (s1 == s2) {
                System.out.println("s1 == s2");
            } else {
                System.out.println("s1 != s2");
            }
        }
    }
    

    判断引用类型的变量内容是否相等,必须使用equals()方法:

    public class Main {
        public static void main(String[] args) {
            String s1 = "hello";
            String s2 = "HELLO".toLowerCase();
            System.out.println(s1);
            System.out.println(s2);
            if (s1.equals(s2)) {
                System.out.println("s1 equals s2");
            } else {
                System.out.println("s1 not equals s2");
            }
        }
    }
    

    注意:执行语句s1.equals(s2)时,如果变量s1为null,会报NullPointerException.
    要避免NullPointerException错误,可以利用短路运算符&&:

    public class Main {
        public static void main(String[] args) {
            String s1 = null;
            if (s1 != null && s1.equals("hello")) {
                System.out.println("hello");
            }
        }
    }
    

    还可以把一定不是null的对象"hello"放到前面:例如:if ("hello".equals(s)) { ... }

    switch

    switch可以判断整数,还可以匹配字符串。

    注意新语法使用->,如果有多条语句,需要用{}括起来。不要写break语句,因为新语法只会执行匹配的语句,没有穿透效应。

    public class Main {
        public static void main(String[] args) {
            String fruit = "apple";
            int opt = switch (fruit) {
                case "apple" -> 1;
                case "pear", "mango" -> 2;
                default -> 0;
            }; // 注意赋值语句要以;结束
            System.out.println("opt = " + opt);
        }
    }
    

    大多数时候,在switch表达式内部,我们会返回简单的值。

    但是,如果需要复杂的语句,我们也可以写很多语句,放到{...}里,然后,用yield返回一个值作为switch语句的返回值:

    public class Main {
        public static void main(String[] args) {
            String fruit = "orange";
            int opt = switch (fruit) {
                case "apple" -> 1;
                case "pear", "mango" -> 2;
                default -> {
                    int code = fruit.hashCode();
                    yield code; // switch语句返回值
                }
            };
            System.out.println("opt = " + opt);
        }
    }
    

    灵活使用for循环

    for循环还可以缺少初始化语句、循环条件和每次循环更新语句,例如:

    // 不设置结束条件:
    for (int i=0; ; i++) {
        ...
    }
    
    // 不设置结束条件和更新语句:
    for (int i=0; ;) {
        ...
    }
    
    // 什么都不设置:
    for (;;) {
        ...
    }
    

    Java还提供了另一种for each循环,它可以更简单地遍历数组:

    public class Main {
        public static void main(String[] args) {
            int[] ns = { 1, 4, 9, 16, 25 };
            for (int n : ns) {
                System.out.println(n);
            }
        }
    }
    

    和for循环相比,for each循环的变量n不再是计数器,而是直接对应到数组的每个元素。for each循环的写法也更简洁。但是,for each循环无法指定遍历顺序,也无法获取数组的索引。

    除了数组外,for each循环能够遍历所有“可迭代”的数据类型.

    break和continue

    break

    在循环过程中,可以使用break语句跳出当前循环。

    public class Main {
        public static void main(String[] args) {
            int sum = 0;
            for (int i=1; ; i++) {
                sum = sum + i;
                if (i == 100) {
                    break;
                }
            }
            System.out.println(sum);
        }
    }
    

    continue

    break会跳出当前循环,也就是整个循环都不会执行了。而continue则是提前结束本次循环,直接继续执行下次循环。

    public class Main {
        public static void main(String[] args) {
            int sum = 0;
            for (int i=1; i<=10; i++) {
                System.out.println("begin i = " + i);
                if (i % 2 == 0) {
                    continue; // continue语句会结束本次循环
                }
                sum = sum + i;
                System.out.println("end i = " + i);
            }
            System.out.println(sum); // 25
        }
    }
    

    遍历数组

    直接打印数组变量,得到的是数组在JVM中的引用地址。
    这并没有什么意义,因为我们希望打印的数组的元素内容。因此,使用for each循环来打印它。
    使用for each循环打印也很麻烦。幸好Java标准库提供了Arrays.toString(),可以快速打印数组内容:

    import java.util.Arrays;
    
    public class Main {
        public static void main(String[] args) {
            int[] ns = { 1, 1, 2, 3, 5, 8 };
            System.out.println(Arrays.toString(ns));
        }
    }
    

    面向对象编程

    继承

    继承有个特点,就是子类无法访问父类的private字段或者private方法。
    这使得继承的作用被削弱了。为了让子类可以访问父类的字段,我们需要把private改为protected。

    super关键字表示父类(超类)。子类引用父类的字段时,可以用super.fieldName。

    class Student extends Person {
        protected int score;
    
        public Student(String name, int age, int score) {
            super(); // 自动调用父类的构造方法
            this.score = score;
        }
    }
    

    如果父类没有默认的构造方法,子类就必须显式调用super()并给出参数以便让编译器定位到父类的一个合适的构造方法。

    这里还顺带引出了另一个问题:即子类不会继承任何父类的构造方法。子类默认的构造方法是编译器自动生成的,不是继承的。

    向上向下转型

    子类转化为父类,即向上转型;
    父类转化为子类,即向下转型。

    向上转型是可以的,向下转型会报错。
    为了避免向下转型出错,Java提供了instanceof操作符,可以先判断一个实例究竟是不是某种类型:

    Person p = new Person();
    System.out.println(p instanceof Person); // true
    System.out.println(p instanceof Student); // false
    

    instanceof实际上判断一个变量所指向的实例是否是指定类型,或者这个类型的子类。如果一个引用变量为null,那么对任何instanceof的判断都为false。

    利用instanceof,在向下转型前可以先判断:

    Person p = new Student();
    if (p instanceof Student) {
        // 只有判断成功才会向下转型:
        Student s = (Student) p; // 一定会成功
    }
    

    从Java 14开始,判断instanceof后,可以直接转型为指定变量,避免再次强制转型。例如,对于以下代码:

    Object obj = "hello";
    if (obj instanceof String) {
        String s = (String) obj;
        System.out.println(s.toUpperCase());
    }
    

    可以改写如下:

    public class Main {
        public static void main(String[] args) {
            Object obj = "hello";
            if (obj instanceof String s) {
                // 可以直接使用变量s:
                System.out.println(s.toUpperCase());
            }
        }
    }
    

    多态

    多态是指,针对某个类型的方法调用,其真正执行的方法取决于运行时期实际类型的方法。

    在继承关系中,子类如果定义了一个与父类方法签名完全相同的方法,被称为覆写(Override)。
    加上@Override可以让编译器帮助检查是否进行了正确的覆写。希望进行覆写,但是不小心写错了方法签名,编译器会报错。
    但是@Override不是必需的。

    class Student extends Person {
        @Override
        public void run() {
            System.out.println("Student.run");
        }
    }
    

    覆写Object方法

    因为所有的class最终都继承自Object,而Object定义了几个重要的方法:

    • toString():把instance输出为String;
    • equals():判断两个instance是否逻辑相等;
    • hashCode():计算一个instance的哈希值。

    在必要的情况下,我们可以覆写Object的这几个方法。例如:

    class Person {
        ...
        // 显示更有意义的字符串:
        @Override
        public String toString() {
            return "Person:name=" + name;
        }
    
        // 比较是否相等:
        @Override
        public boolean equals(Object o) {
            // 当且仅当o为Person类型:
            if (o instanceof Person) {
                Person p = (Person) o;
                // 并且name字段相同时,返回true:
                return this.name.equals(p.name);
            }
            return false;
        }
    
        // 计算hash:
        @Override
        public int hashCode() {
            return this.name.hashCode();
        }
    }
    

    final

    继承可以允许子类覆写父类的方法。如果一个父类不允许子类对它的某个方法进行覆写,可以把该方法标记为final。用final修饰的方法不能被Override:

    class Person {
        protected String name;
        public final String hello() {
            return "Hello, " + name;
        }
    }
    
    Student extends Person {
        // compile error: 不允许覆写
        @Override
        public String hello() {
        }
    }
    

    如果一个类不希望任何其他类继承自它,那么可以把这个类本身标记为final。用final修饰的类不能被继承:

    final class Person {
        protected String name;
    }
    
    // compile error: 不允许继承自Person
    Student extends Person {
    }
    

    抽象类

    使用abstract修饰的类就是抽象类。

    public class Main {
        public static void main(String[] args) {
            Person p = new Student();
            p.run();
        }
    }
    
    abstract class Person {
        public abstract void run();
    }
    
    class Student extends Person {
        @Override
        public void run() {
            System.out.println("Student.run");
        }
    }
    

    接口

    在抽象类中,抽象方法本质上是定义接口规范:即规定高层类的接口,从而保证所有子类都有相同的接口实现,这样,多态就能发挥出威力。

    如果一个抽象类没有字段,所有方法全部都是抽象方法:

    abstract class Person {
        public abstract void run();
        public abstract String getName();
    }
    

    就可以把该抽象类改写为接口:interface

    在Java中,使用interface可以声明一个接口:

    interface Person {
        void run();
        String getName();
    }
    

    所谓interface,就是比抽象类还要抽象的纯抽象接口,因为它连字段都不能有。因为接口定义的所有方法默认都是public abstract的,所以这两个修饰符不需要写出来(写不写效果都一样)。

    当一个具体的class去实现一个interface时,需要使用implements关键字。举个例子:

    class Student implements Person {
        private String name;
    
        public Student(String name) {
            this.name = name;
        }
    
        @Override
        public void run() {
            System.out.println(this.name + " run");
        }
    
        @Override
        public String getName() {
            return this.name;
        }
    }
    

    我们知道,在Java中,一个类只能继承自另一个类,不能从多个类继承。但是,一个类可以实现多个interface,例如:

    class Student implements Person, Hello { // 实现了两个interface
        ...
    }
    

    术语

    注意区分术语:

    Java的接口特指interface的定义,表示一个接口类型和一组方法签名,而编程接口泛指接口规范,如方法签名,数据格式,网络协议等。

    接口继承

    一个interface可以继承自另一个interface。interface继承自interface使用extends,它相当于扩展了接口的方法。例如:

    interface Hello {
        void hello();
    }
    
    interface Person extends Hello {
        void run();
        String getName();
    }String var = null;
    

    继承关系

    合理设计interface和abstract class的继承关系,可以充分复用代码。一般来说,公共逻辑适合放在abstract class中,具体逻辑放到各个子类,而接口层次代表抽象程度。可以参考Java的集合类定义的一组接口、抽象类以及具体子类的继承关系:

    在使用的时候,实例化的对象永远只能是某个具体的子类,但总是通过接口去引用它,因为接口比抽象类更抽象:

    List list = new ArrayList(); // 用List接口引用具体子类的实例
    Collection coll = list; // 向上转型为Collection接口
    Iterable it = coll; // 向上转型为Iterable接口
    

    default方法

    在接口中,可以定义default方法。例如,把Person接口的run()方法改为default方法:

    public class Main {
        public static void main(String[] args) {
            Person p = new Student("Xiao Ming");
            p.run();
        }
    }
    
    interface Person {
        String getName();
        default void run() {
            System.out.println(getName() + " run");
        }
    }
    
    class Student implements Person {
        private String name;
    
        public Student(String name) {
            this.name = name;
        }
    
        public String getName() {
            return this.name;
        }
    }
    

    静态字段和静态方法

    静态字段

    在一个class中定义的字段,我们称之为实例字段。实例字段的特点是,每个实例都有独立的字段,各个实例的同名字段互不影响。

    还有一种字段,是用static修饰的字段,称为静态字段:static field。

    实例字段在每个实例中都有自己的一个独立“空间”,但是静态字段只有一个共享“空间”,所有实例都会共享该字段。

    静态方法

    有静态字段,就有静态方法。用static修饰的方法称为静态方法。

    调用实例方法必须通过一个实例变量,而调用静态方法则不需要实例变量,通过类名就可以调用。静态方法类似其它编程语言的函数。例如:

    public class Main {
        public static void main(String[] args) {
            Person.setNumber(99);
            System.out.println(Person.number);
        }
    }
    
    class Person {
        public static int number;
    
        public static void setNumber(int value) {
            number = value;
        }
    }
    

    因为静态方法属于class而不属于实例,因此,静态方法内部,无法访问this变量,也无法访问实例字段,它只能访问静态字段。

    通过实例变量也可以调用静态方法,但这只是编译器自动帮我们把实例改写成类名而已。

    Java定义了一种名字空间,称之为包:package。一个类总是属于某个包,类名(比如Person)只是一个简写,真正的完整类名是包名.类名。

    在定义class的时候,我们需要在第一行声明这个class属于哪个包。

    小明的Person.java文件:

    package ming; // 申明包名ming
    
    public class Person {
    }
    

    包作用域

    位于同一个包的类,可以访问包作用域的字段和方法。不用public、protected、private修饰的字段和方法就是包作用域。例如,Person类定义在hello包下面:

    package hello;
    
    public class Person {
        // 包作用域:
        void hello() {
            System.out.println("Hello!");
        }
    }
    

    Main类也定义在hello包下面:

    package hello;
    
    public class Main {
        public static void main(String[] args) {
            Person p = new Person();
            p.hello(); // 可以调用,因为Main和Person在同一个包
        }
    }
    

    import

    在一个class中,我们总会引用其他的class。

    用import语句,导入小军的Arrays:

    // Person.java
    package ming;
    
    // 导入完整类名:
    import mr.jun.Arrays;
    
    public class Person {
        public void run() {
            Arrays arrays = new Arrays();
        }
    }
    

    在写import的时候,可以使用*,表示把这个包下面的所有class都导入进来(但不包括子包的class):

    // Person.java
    package ming;
    
    // 导入mr.jun包的所有class:
    import mr.jun.*;
    
    public class Person {
        public void run() {
            Arrays arrays = new Arrays();
        }
    }
    

    我们一般不推荐这种写法,因为在导入了多个包后,很难看出Arrays类属于哪个包。

    还有一种import static的语法,它可以导入可以导入一个类的静态字段和静态方法:

    package main;
    
    // 导入System类的所有静态字段和静态方法:
    import static java.lang.System.*;
    
    public class Main {
        public static void main(String[] args) {
            // 相当于调用System.out.println(…)
            out.println("Hello, world!");
        }
    }
    

    classpath和jar

    classpath

    在Java中,我们经常听到classpath这个东西。网上有很多关于“如何设置classpath”的文章,但大部分设置都不靠谱。

    到底什么是classpath?

    classpath是JVM用到的一个环境变量,它用来指示JVM如何搜索class。

    因为Java是编译型语言,源码文件是.java,而编译后的.class文件才是真正可以被JVM执行的字节码。因此,JVM需要知道,如果要加载一个abc.xyz.Hello的类,应该去哪搜索对应的Hello.class文件。

    所以,classpath就是一组目录的集合,它设置的搜索路径与操作系统相关。例如,在Windows系统上,用;分隔,带空格的目录用""括起来,可能长这样:

    C:workproject1in;C:shared;"D:My Documentsproject1in"
    

    在Linux系统上,用:分隔,可能长这样:

    /usr/shared:/usr/local/bin:/home/liaoxuefeng/bin
    

    jar包

    如果有很多.class文件,散落在各层目录中,肯定不便于管理。如果能把目录打一个包,变成一个文件,就方便多了。

    jar包就是用来干这个事的,它可以把package组织的目录层级,以及各个目录下的所有文件(包括.class文件和其他文件)都打成一个jar文件,这样一来,无论是备份,还是发给客户,就简单多了。

    jar包实际上就是一个zip格式的压缩文件,而jar包相当于目录。如果我们要执行一个jar包的class,就可以把jar包放到classpath中:

    java -cp ./hello.jar abc.xyz.Hello
    

    这样JVM会自动在hello.jar文件里去搜索某个类。

    那么问题来了:如何创建jar包?

    因为jar包就是zip包,所以,直接在资源管理器中,找到正确的目录,点击右键,在弹出的快捷菜单中选择“发送到”,“压缩(zipped)文件夹”,就制作了一个zip文件。然后,把后缀从.zip改为.jar,一个jar包就创建成功。

    这里需要特别注意的是,jar包里的第一层目录,不能是bin,而应该是hong、ming、mr。

    MANIFEST.MF文件可以提供jar包的信息,如Main-Class,这样可以直接运行jar包。

    在大型项目中,不可能手动编写MANIFEST.MF文件,再手动创建zip包。Java社区提供了大量的开源构建工具,例如Maven,可以非常方便地创建jar包。

    模块

    从Java 9开始,JDK又引入了模块(Module)。

    什么是模块?这要从Java 9之前的版本说起。

    我们知道,.class文件是JVM看到的最小可执行文件,而一个大型程序需要编写很多Class,并生成一堆.class文件,很不便于管理,所以,jar文件就是class文件的容器。

    在Java 9之前,一个大型Java程序会生成自己的jar文件,同时引用依赖的第三方jar文件,而JVM自带的Java标准库,实际上也是以jar文件形式存放的,这个文件叫rt.jar,一共有60多M。

    如果是自己开发的程序,除了一个自己的app.jar以外,还需要一堆第三方的jar包,运行一个Java程序,一般来说,命令行写这样:

    java -cp app.jar:a.jar:b.jar:c.jar com.liaoxuefeng.sample.Main
    

    如果漏写了某个运行时需要用到的jar,那么在运行期极有可能抛出ClassNotFoundException。

    所以,jar只是用于存放class的容器,它并不关心class之间的依赖。

    从Java 9开始引入的模块,主要是为了解决“依赖”这个问题。如果a.jar必须依赖另一个b.jar才能运行,那我们应该给a.jar加点说明啥的,让程序在编译和运行的时候能自动定位到b.jar,这种自带“依赖关系”的class容器就是模块。

    为了表明Java模块化的决心,从Java 9开始,原有的Java标准库已经由一个单一巨大的rt.jar分拆成了几十个模块,这些模块以.jmod扩展名标识,可以在$JAVA_HOME/jmods目录下找到它们:

    • java.base.jmod
    • java.compiler.jmod
    • java.datatransfer.jmod
    • java.desktop.jmod
    • ...

    这些.jmod文件每一个都是一个模块,模块名就是文件名。例如:模块java.base对应的文件就是java.base.jmod。模块之间的依赖关系已经被写入到模块内的module-info.class文件了。所有的模块都直接或间接地依赖java.base模块,只有java.base模块不依赖任何模块,它可以被看作是“根模块”,好比所有的类都是从Object直接或间接继承而来。

    把一堆class封装为jar仅仅是一个打包的过程,而把一堆class封装为模块则不但需要打包,还需要写入依赖关系,并且还可以包含二进制代码(通常是JNI扩展)。此外,模块支持多版本,即在同一个模块中可以为不同的JVM提供不同的版本。

    编写模块

    那么,我们应该如何编写模块呢?还是以具体的例子来说。首先,创建模块和原有的创建Java项目是完全一样的,以oop-module工程为例,它的目录结构如下:

    oop-module
    ├── bin
    ├── build.sh
    └── src
        ├── com
        │   └── itranswarp
        │       └── sample
        │           ├── Greeting.java
        │           └── Main.java
        └── module-info.java
    

    其中,bin目录存放编译后的class文件,src目录存放源码,按包名的目录结构存放,仅仅在src目录下多了一个module-info.java这个文件,这就是模块的描述文件。在这个模块中,它长这样:

    module hello.world {
    	requires java.base; // 可不写,任何模块都会自动引入java.base
    	requires java.xml;
    }
    

    其中,module是关键字,后面的hello.world是模块的名称,它的命名规范与包一致。花括号的requires xxx;表示这个模块需要引用的其他模块名。除了java.base可以被自动引入外,这里我们引入了一个java.xml的模块。

    当我们使用模块声明了依赖关系后,才能使用引入的模块。例如,Main.java代码如下:

    package com.itranswarp.sample;
    
    // 必须引入java.xml模块后才能使用其中的类:
    import javax.xml.XMLConstants;
    
    public class Main {
    	public static void main(String[] args) {
    		Greeting g = new Greeting();
    		System.out.println(g.hello(XMLConstants.XML_NS_PREFIX));
    	}
    }
    

    如果把requires java.xml;从module-info.java中去掉,编译将报错。可见,模块的重要作用就是声明依赖关系。

    下面,我们用JDK提供的命令行工具来编译并创建模块。

    首先,我们把工作目录切换到oop-module,在当前目录下编译所有的.java文件,并存放到bin目录下,命令如下:

    javac -d bin src/module-info.java src/com/itranswarp/sample/*.java
    

    如果编译成功,现在项目结构如下:

    oop-module
    ├── bin
    │   ├── com
    │   │   └── itranswarp
    │   │       └── sample
    │   │           ├── Greeting.class
    │   │           └── Main.class
    │   └── module-info.class
    └── src
        ├── com
        │   └── itranswarp
        │       └── sample
        │           ├── Greeting.java
        │           └── Main.java
        └── module-info.java
    

    注意到src目录下的module-info.java被编译到bin目录下的module-info.class。

    下一步,我们需要把bin目录下的所有class文件先打包成jar,在打包的时候,注意传入--main-class参数,让这个jar包能自己定位main方法所在的类:

    jar --create --file hello.jar --main-class com.itranswarp.sample.Main -C bin .
    

    现在我们就在当前目录下得到了hello.jar这个jar包,它和普通jar包并无区别,可以直接使用命令java -jar hello.jar来运行它。但是我们的目标是创建模块,所以,继续使用JDK自带的jmod命令把一个jar包转换成模块:

    jmod create --class-path hello.jar hello.jmod
    

    于是,在当前目录下我们又得到了hello.jmod这个模块文件,这就是最后打包出来的传说中的模块!

    运行模块

    要运行一个jar,我们使用java -jar xxx.jar命令。要运行一个模块,我们只需要指定模块名。试试:

    $ java --module-path hello.jmod --module hello.world
    

    结果是一个错误:

    Error occurred during initialization of boot layer
    java.lang.module.FindException: JMOD format not supported at execution time: hello.jmod
    

    原因是.jmod不能被放入--module-path中。换成.jar就没问题了:

    $ java --module-path hello.jar --module hello.world
    Hello, xml!
    

    那我们辛辛苦苦创建的hello.jmod有什么用?答案是我们可以用它来打包JRE。

    打包JRE

    前面讲了,为了支持模块化,Java 9首先带头把自己的一个巨大无比的rt.jar拆成了几十个.jmod模块,原因就是,运行Java程序的时候,实际上我们用到的JDK模块,并没有那么多。不需要的模块,完全可以删除。

    过去发布一个Java应用程序,要运行它,必须下载一个完整的JRE,再运行jar包。而完整的JRE块头很大,有100多M。怎么给JRE瘦身呢?

    现在,JRE自身的标准库已经分拆成了模块,只需要带上程序用到的模块,其他的模块就可以被裁剪掉。怎么裁剪JRE呢?并不是说把系统安装的JRE给删掉部分模块,而是“复制”一份JRE,但只带上用到的模块。为此,JDK提供了jlink命令来干这件事。命令如下:

    $ jlink --module-path hello.jmod --add-modules java.base,java.xml,hello.world --output jre/
    

    我们在--module-path参数指定了我们自己的模块hello.jmod,然后,在--add-modules参数中指定了我们用到的3个模块java.base、java.xml和hello.world,用,分隔。最后,在--output参数指定输出目录。

    现在,在当前目录下,我们可以找到jre目录,这是一个完整的并且带有我们自己hello.jmod模块的JRE。试试直接运行这个JRE:

    $ jre/bin/java --module hello.world
    Hello, xml!
    

    要分发我们自己的Java应用程序,只需要把这个jre目录打个包给对方发过去,对方直接运行上述命令即可,既不用下载安装JDK,也不用知道如何配置我们自己的模块,极大地方便了分发和部署。

    访问权限

    前面我们讲过,Java的class访问权限分为public、protected、private和默认的包访问权限。引入模块后,这些访问权限的规则就要稍微做些调整。

    确切地说,class的这些访问权限只在一个模块内有效,模块和模块之间,例如,a模块要访问b模块的某个class,必要条件是b模块明确地导出了可以访问的包。

    举个例子:我们编写的模块hello.world用到了模块java.xml的一个类javax.xml.XMLConstants,我们之所以能直接使用这个类,是因为模块java.xml的module-info.java中声明了若干导出:

    module java.xml {
        exports java.xml;
        exports javax.xml.catalog;
        exports javax.xml.datatype;
        ...
    }
    

    有它声明的导出的包,外部代码才被允许访问。换句话说,如果外部代码想要访问我们的hello.world模块中的com.itranswarp.sample.Greeting类,我们必须将其导出:

    module hello.world {
        exports com.itranswarp.sample;
    
        requires java.base;
    	requires java.xml;
    }
    

    因此,模块进一步隔离了代码的访问权限。

    Java核心类

    String

    在Java中,String是一个引用类型,它本身也是一个class。但是,Java编译器对String有特殊处理,即可以直接用"..."来表示一个字符串。

    字符串比较

    当我们想要比较两个字符串是否相同时,要特别注意,我们实际上是想比较字符串的内容是否相同。必须使用equals()方法而不能用==。

    public class Main {
        public static void main(String[] args) {
            String s1 = "hello";
            String s2 = "hello";
            System.out.println(s1 == s2);
            System.out.println(s1.equals(s2));
        }
    }
    

    从表面上看,两个字符串用==和equals()比较都为true,但实际上那只是Java编译器在编译期,会自动把所有相同的字符串当作一个对象放入常量池,自然s1和s2的引用就是相同的。

    所以,这种比较返回true纯属巧合。换一种写法,比较就会失败:

    public class Main {
        public static void main(String[] args) {
            String s1 = "hello";
            String s2 = "HELLO".toLowerCase();
            System.out.println(s1 == s2);
            System.out.println(s1.equals(s2));
        }
    }
    

    StringBuilder

    Java编译器对String做了特殊处理,使得我们可以直接用+拼接字符串。

    考察下面的循环代码:

    String s = "";
    for (int i = 0; i < 1000; i++) {
        s = s + "," + i;
    }
    

    虽然可以直接拼接字符串,但是,在循环中,每次循环都会创建新的字符串对象,然后扔掉旧的字符串。这样,绝大部分字符串都是临时对象,不但浪费内存,还会影响GC效率。

    为了能高效拼接字符串,Java标准库提供了StringBuilder,它是一个可变对象,可以预分配缓冲区,这样,往StringBuilder中新增字符时,不会创建新的临时对象:

    StringBuilder sb = new StringBuilder(1024);
    for (int i = 0; i < 1000; i++) {
        sb.append(',');
        sb.append(i);
    }
    String s = sb.toString();
    

    StringBuilder还可以进行链式操作:

    public class Main {
        public static void main(String[] args) {
            var sb = new StringBuilder(1024);
            sb.append("Mr ")
              .append("Bob")
              .append("!")
              .insert(0, "Hello, ");
            System.out.println(sb.toString());
        }
    }
    

    如果我们查看StringBuilder的源码,可以发现,进行链式操作的关键是,定义的append()方法会返回this,这样,就可以不断调用自身的其他方法。

    仿照StringBuilder,我们也可以设计支持链式操作的类。例如,一个可以不断增加的计数器:

    public class Main {
        public static void main(String[] args) {
            Adder adder = new Adder();
            adder.add(3)
                 .add(5)
                 .inc()
                 .add(10);
            System.out.println(adder.value());
        }
    }
    
    class Adder {
        private int sum = 0;
    
        public Adder add(int n) {
            sum += n;
            return this;
        }
    
        public Adder inc() {
            sum ++;
            return this;
        }
    
        public int value() {
            return sum;
        }
    }
    

    注意:对于普通的字符串+操作,并不需要我们将其改写为StringBuilder,因为Java编译器在编译时就自动把多个连续的+操作编码为StringConcatFactory的操作。在运行期,StringConcatFactory会自动把字符串连接操作优化为数组复制或者StringBuilder操作。

    你可能还听说过StringBuffer,这是Java早期的一个StringBuilder的线程安全版本,它通过同步来保证多个线程操作StringBuffer也是安全的,但是同步会带来执行速度的下降。

    StringBuilder和StringBuffer接口完全相同,现在完全没有必要使用StringBuffer。

    StringJoiner

    要高效拼接字符串,应该使用StringBuilder。

    很多时候,我们拼接的字符串像这样:

    public class Main {
        public static void main(String[] args) {
            String[] names = {"Bob", "Alice", "Grace"};
            var sb = new StringBuilder();
            sb.append("Hello ");
            for (String name : names) {
                sb.append(name).append(", ");
            }
            // 注意去掉最后的", ":
            sb.delete(sb.length() - 2, sb.length());
            sb.append("!");
            System.out.println(sb.toString());
        }
    }
    

    类似用分隔符拼接数组的需求很常见,所以Java标准库还提供了一个StringJoiner来干这个事:

    import java.util.StringJoiner;
    
    public class Main {
        public static void main(String[] args) {
            String[] names = {"Bob", "Alice", "Grace"};
            var sj = new StringJoiner(", ");
            for (String name : names) {
                sj.add(name);
            }
            System.out.println(sj.toString());
        }
    }
    

    慢着!用StringJoiner的结果少了前面的"Hello "和结尾的"!"!遇到这种情况,需要给StringJoiner指定“开头”和“结尾”:

    import java.util.StringJoiner;
    
    public class Main {
        public static void main(String[] args) {
            String[] names = {"Bob", "Alice", "Grace"};
            var sj = new StringJoiner(", ", "Hello ", "!");
            for (String name : names) {
                sj.add(name);
            }
            System.out.println(sj.toString());
        }
    }
    

    那么StringJoiner内部是如何拼接字符串的呢?如果查看源码,可以发现,StringJoiner内部实际上就是使用了StringBuilder,所以拼接效率和StringBuilder几乎是一模一样的。

    String.join()

    String还提供了一个静态方法join(),这个方法在内部使用了StringJoiner来拼接字符串,在不需要指定“开头”和“结尾”的时候,用String.join()更方便:

    String[] names = {"Bob", "Alice", "Grace"};
    var s = String.join(", ", names);
    

    包装类型

    我们已经知道,Java的数据类型分两种:

    • 基本类型:byte,short,int,long,boolean,float,double,char
    • 引用类型:所有class和interface类型

    引用类型可以赋值为null,表示空,但基本类型不能赋值为null:

    实际上,因为包装类型非常有用,Java核心库为每种基本类型都提供了对应的包装类型:

    基本类型 对应的引用类型
    boolean java.lang.Boolean
    byte java.lang.Byte
    short java.lang.Short
    int java.lang.Integer
    long java.lang.Long
    float java.lang.Float
    double java.lang.Double
    char java.lang.Character

    直接把int变为Integer的赋值写法,称为自动装箱(Auto Boxing),反过来,把Integer变为int的赋值写法,称为自动拆箱(Auto Unboxing)。

    因为Integer.valueOf()可能始终返回同一个Integer实例,因此,在我们自己创建Integer的时候,以下两种方法:

    • 方法1:Integer n = new Integer(100);
    • 方法2:Integer n = Integer.valueOf(100);

    方法2更好,因为方法1总是创建新的Integer实例,方法2把内部优化留给Integer的实现者去做,即使在当前版本没有优化,也有可能在下一个版本进行优化。

    我们把能创建“新”对象的静态方法称为静态工厂方法。Integer.valueOf()就是静态工厂方法,它尽可能地返回缓存的实例以节省内存。
    创建新对象时,优先选用静态工厂方法而不是new操作符。

    进制转换

    Integer类本身还提供了大量方法,例如,最常用的静态方法parseInt()可以把字符串解析成一个整数:

    int x1 = Integer.parseInt("100"); // 100
    int x2 = Integer.parseInt("100", 16); // 256,因为按16进制解析
    

    Integer还可以把整数格式化为指定进制的字符串:

    public class Main {
        public static void main(String[] args) {
            System.out.println(Integer.toString(100)); // "100",表示为10进制
            System.out.println(Integer.toString(100, 36)); // "2s",表示为36进制
            System.out.println(Integer.toHexString(100)); // "64",表示为16进制
            System.out.println(Integer.toOctalString(100)); // "144",表示为8进制
            System.out.println(Integer.toBinaryString(100)); // "1100100",表示为2进制
        }
    }
    

    JavaBean

    就是getset方法。

    JavaBean的作用

    JavaBean主要用来传递数据,即把一组数据组合成一个JavaBean便于传输。此外,JavaBean可以方便地被IDE工具分析,生成读写属性的代码,主要用在图形界面的可视化设计中。

    通过IDE,可以快速生成getter和setter。

    枚举类

    为了让编译器能自动检查某个值在枚举的集合内,并且,不同用途的枚举需要不同的类型来标记,不能混用,我们可以使用enum来定义枚举类:

    public class Main {
        public static void main(String[] args) {
            Weekday day = Weekday.SUN;
            if (day == Weekday.SAT || day == Weekday.SUN) {
                System.out.println("Work at home!");
            } else {
                System.out.println("Work at office!");
            }
        }
    }
    
    enum Weekday {
        SUN, MON, TUE, WED, THU, FRI, SAT;
    }
    

    enum的比较

    使用enum定义的枚举类是一种引用类型。前面我们讲到,引用类型比较,要使用equals()方法,如果使用==比较,它比较的是两个引用类型的变量是否是同一个对象。因此,引用类型比较,要始终使用equals()方法,但enum类型可以例外。

    这是因为enum类型的每个常量在JVM中只有一个唯一实例,所以可以直接用==比较.

    记录类

    从Java 14开始,引入了新的Record类。我们定义Record类时,使用关键字record。把上述Point类改写为Record类,代码如下:

    public class Main {
        public static void main(String[] args) {
            Point p = new Point(123, 456);
            System.out.println(p.x());
            System.out.println(p.y());
            System.out.println(p);
        }
    }
    
    public record Point(int x, int y) {}
    

    仔细观察Point的定义:

    public record Point(int x, int y) {}
    

    把上述定义改写为class,相当于以下代码:

    public final class Point extends Record {
        private final int x;
        private final int y;
    
        public Point(int x, int y) {
            this.x = x;
            this.y = y;
        }
    
        public int x() {
            return this.x;
        }
    
        public int y() {
            return this.y;
        }
    
        public String toString() {
            return String.format("Point[x=%s, y=%s]", x, y);
        }
    
        public boolean equals(Object o) {
            ...
        }
        public int hashCode() {
            ...
        }
    }
    

    除了用final修饰class以及每个字段外,编译器还自动为我们创建了构造方法,和字段名同名的方法,以及覆写toString()、equals()和hashCode()方法。

    换句话说,使用record关键字,可以一行写出一个不变类。

    和enum类似,我们自己不能直接从Record派生,只能通过record关键字由编译器实现继承。

    构造方法

    编译器默认按照record声明的变量顺序自动创建一个构造方法,并在方法内给字段赋值。那么问题来了,如果我们要检查参数,应该怎么办?

    假设Point类的x、y不允许负数,我们就得给Point的构造方法加上检查逻辑:

    public record Point(int x, int y) {
        public Point {
            if (x < 0 || y < 0) {
                throw new IllegalArgumentException();
            }
        }
    }
    

    注意到方法public Point {...}被称为Compact Constructor,它的目的是让我们编写检查逻辑,编译器最终生成的构造方法如下:

    public final class Point extends Record {
        public Point(int x, int y) {
            // 这是我们编写的Compact Constructor:
            if (x < 0 || y < 0) {
                throw new IllegalArgumentException();
            }
            // 这是编译器继续生成的赋值代码:
            this.x = x;
            this.y = y;
        }
        ...
    }
    

    作为record的Point仍然可以添加静态方法。一种常用的静态方法是of()方法,用来创建Point:

    public record Point(int x, int y) {
        public static Point of() {
            return new Point(0, 0);
        }
        public static Point of(int x, int y) {
            return new Point(x, y);
        }
    }
    

    这样我们可以写出更简洁的代码:

    var z = Point.of();
    var p = Point.of(123, 456);
    

    反射

    Class 类

    class是由JVM在执行过程中动态加载的。JVM在第一次读取到一种class类型时,将其加载进内存,JVM为每个加载的class及interface创建了对应的Class实例来保存class及interface的所有信息。

    每加载一种class,JVM就为其创建一个Class类型的实例,并关联起来。注意:这里的Class类型是一个名叫Class的class。它长这样:

    public final class Class {
        private Class() {}
    }
    

    由于JVM为每个加载的class创建了对应的Class实例,并在实例中保存了该class的所有信息,包括类名、包名、父类、实现的接口、所有方法、字段等,因此,如果获取了某个Class实例,我们就可以通过这个Class实例获取到该实例对应的class的所有信息。

    这种通过Class实例获取class信息的方法称为反射(Reflection)

    获取一个class对应的Class实例后,就可以获取该class的所有信息;

    JVM总是动态加载class,可以在运行期根据条件来控制加载class。

    如何获取一个class的Class实例?有三个方法:

    方法一:直接通过一个class的静态变量class获取:

    Class cls = String.class;
    

    方法二:如果我们有一个实例变量,可以通过该实例变量提供的getClass()方法获取:

    String s = "Hello";
    Class cls = s.getClass();
    

    方法三:如果知道一个class的完整类名,可以通过静态方法Class.forName()获取:

    Class cls = Class.forName("java.lang.String");
    

    因为Class实例在JVM中是唯一的,所以,上述方法获取的Class实例是同一个实例。可以用==比较两个Class实例:

    Class cls1 = String.class;
    
    String s = "Hello";
    Class cls2 = s.getClass();
    
    boolean sameClass = cls1 == cls2; // true
    

    通常情况下,我们应该用instanceof判断数据类型,因为面向抽象编程的时候,我们不关心具体的子类型。只有在需要精确判断一个类型是不是某个class的时候,我们才使用==判断class实例。

    因为反射的目的是为了获得某个实例的信息。因此,当我们拿到某个Object实例时,我们可以通过反射获取该Object的class信息:

    void printObjectInfo(Object obj) {
        Class cls = obj.getClass();
    }
    

    要从Class实例获取获取的基本信息,参考下面的代码:

    public class Main {
        public static void main(String[] args) {
            printClassInfo("".getClass());
            printClassInfo(Runnable.class);
            printClassInfo(java.time.Month.class);
            printClassInfo(String[].class);
            printClassInfo(int.class);
        }
    
        static void printClassInfo(Class cls) {
            System.out.println("Class name: " + cls.getName());
            System.out.println("Simple name: " + cls.getSimpleName());
            if (cls.getPackage() != null) {
                System.out.println("Package name: " + cls.getPackage().getName());
            }
            System.out.println("is interface: " + cls.isInterface());
            System.out.println("is enum: " + cls.isEnum());
            System.out.println("is array: " + cls.isArray());
            System.out.println("is primitive: " + cls.isPrimitive());
        }
    }
    
    Class name: java.lang.String
    Simple name: String
    Package name: java.lang
    is interface: false
    is enum: false
    is array: false
    is primitive: false
    Class name: java.lang.Runnable
    Simple name: Runnable
    Package name: java.lang
    is interface: true
    is enum: false
    is array: false
    is primitive: false
    Class name: java.time.Month
    Simple name: Month
    Package name: java.time
    is interface: false
    is enum: true
    is array: false
    is primitive: false
    Class name: [Ljava.lang.String;
    Simple name: String[]
    is interface: false
    is enum: false
    is array: true
    is primitive: false
    Class name: int
    Simple name: int
    is interface: false
    is enum: false
    is array: false
    is primitive: true
    

    动态加载

    JVM在执行Java程序的时候,并不是一次性把所有用到的class全部加载到内存,而是第一次需要用到class时才加载。例如:

    // Main.java
    public class Main {
        public static void main(String[] args) {
            if (args.length > 0) {
                create(args[0]);
            }
        }
    
        static void create(String name) {
            Person p = new Person(name);
        }
    }
    

    当执行Main.java时,由于用到了Main,因此,JVM首先会把Main.class加载到内存。然而,并不会加载Person.class,除非程序执行到create()方法,JVM发现需要加载Person类时,才会首次加载Person.class。如果没有执行create()方法,那么Person.class根本就不会被加载。

    这就是JVM动态加载class的特性。

    动态加载class的特性对于Java程序非常重要。利用JVM动态加载class的特性,我们才能在运行期根据条件加载不同的实现类。例如,Commons Logging总是优先使用Log4j,只有当Log4j不存在时,才使用JDK的logging。利用JVM动态加载特性,大致的实现代码如下:

    // Commons Logging优先使用Log4j:
    LogFactory factory = null;
    if (isClassPresent("org.apache.logging.log4j.Logger")) {
        factory = createLog4j();
    } else {
        factory = createJdkLog();
    }
    
    boolean isClassPresent(String name) {
        try {
            Class.forName(name);
            return true;
        } catch (Exception e) {
            return false;
        }
    }
    

    这就是为什么我们只需要把Log4j的jar包放到classpath中,Commons Logging就会自动使用Log4j的原因。

    访问字段

    对任意的一个Object实例,只要我们获取了它的Class,就可以获取它的一切信息。

    我们先看看如何通过Class实例获取字段信息。Class类提供了以下几个方法来获取字段:

    • Field getField(name):根据字段名获取某个public的field(包括父类)
    • Field getDeclaredField(name):根据字段名获取当前类的某个field(不包括父类)
    • Field[] getFields():获取所有public的field(包括父类)
    • Field[] getDeclaredFields():获取当前类的所有field(不包括父类)
    public class javatest {
        public static void main(String[] args) throws Exception {
            Class stdClass = Student.class;
            // 获取public字段"score":
            System.out.println(stdClass.getField("score"));
            // 获取继承的public字段"name":
            System.out.println(stdClass.getField("name"));
            // 获取private字段"grade":
            System.out.println(stdClass.getDeclaredField("grade"));
        }
    }
    
    class Student extends Person {
        public int score;
        private int grade;
    }
    
    class Person {
        public String name;
    }
    

    上述代码首先获取Student的Class实例,然后,分别获取public字段、继承的public字段以及private字段,打印出的Field类似:

    public int Student.score
    public java.lang.String Person.name
    private int Student.grade
    

    一个Field对象包含了一个字段的所有信息:

    • getName():返回字段名称,例如,"name";
    • getType():返回字段类型,也是一个Class实例,例如,String.class;
    • getModifiers():返回字段的修饰符,它是一个int,不同的bit表示不同的含义。

    以String类的value字段为例,它的定义是:

    public final class String {
        private final byte[] value;
    }
    

    我们用反射获取该字段的信息,代码如下:

    Field f = String.class.getDeclaredField("value");
    f.getName(); // "value"
    f.getType(); // class [B 表示byte[]类型
    int m = f.getModifiers();
    Modifier.isFinal(m); // true
    Modifier.isPublic(m); // false
    Modifier.isProtected(m); // false
    Modifier.isPrivate(m); // true
    Modifier.isStatic(m); // false
    

    获取字段值

    利用反射拿到字段的一个Field实例只是第一步,我们还可以拿到一个实例对应的该字段的值。

    例如,对于一个Person实例,我们可以先拿到name字段对应的Field,再获取这个实例的name字段的值:

    import java.lang.reflect.Field;
    
    public class Main {
        public static void main(String[] args) throws Exception {
            Object p = new Person("Xiao Ming");
            Class c = p.getClass();
            Field f = c.getDeclaredField("name");
            f.setAccessible(true);
            Object value = f.get(p);
            System.out.println(value); // "Xiao Ming"
        }
    }
    
    class Person {
        private String name;
    
        public Person(String name) {
            this.name = name;
        }
    }
    
    Xiao Ming
    

    调用Field.setAccessible(true)的意思是,别管这个字段是不是public,一律允许访问。

    设置字段值

    通过Field实例既然可以获取到指定实例的字段值,自然也可以设置字段的值。

    设置字段值是通过Field.set(Object, Object)实现的,其中第一个Object参数是指定的实例,第二个Object参数是待修改的值。示例代码如下:

    import java.lang.reflect.Field;
    
    public class Main {
    
        public static void main(String[] args) throws Exception {
            Person p = new Person("Xiao Ming");
            System.out.println(p.getName()); // "Xiao Ming"
            Class c = p.getClass();
            Field f = c.getDeclaredField("name");
            f.setAccessible(true);
            f.set(p, "Xiao Hong");
            System.out.println(p.getName()); // "Xiao Hong"
        }
    }
    
    class Person {
        private String name;
    
        public Person(String name) {
            this.name = name;
        }
    
        public String getName() {
            return this.name;
        }
    }
    
    Xiao Ming
    Xiao Hong
    

    调用方法

    我们已经能通过Class实例获取所有Field对象,同样的,可以通过Class实例获取所有Method信息。Class类提供了以下几个方法来获取Method:

    • Method getMethod(name, Class...):获取某个public的Method(包括父类)
    • Method getDeclaredMethod(name, Class...):获取当前类的某个Method(不包括父类)
    • Method[] getMethods():获取所有public的Method(包括父类)
    • Method[] getDeclaredMethods():获取当前类的所有Method(不包括父类)
    public class Main {
        public static void main(String[] args) throws Exception {
            Class stdClass = Student.class;
            // 获取public方法getScore,参数为String:
            System.out.println(stdClass.getMethod("getScore", String.class));
            // 获取继承的public方法getName,无参数:
            System.out.println(stdClass.getMethod("getName"));
            // 获取private方法getGrade,参数为int:
            System.out.println(stdClass.getDeclaredMethod("getGrade", int.class));
        }
    }
    
    class Student extends Person {
        public int getScore(String type) {
            return 99;
        }
        private int getGrade(int year) {
            return 1;
        }
    }
    
    class Person {
        public String getName() {
            return "Person";
        }
    }
    
    public int Student.getScore(java.lang.String)
    public java.lang.String Person.getName()
    private int Student.getGrade(int)
    

    一个Method对象包含一个方法的所有信息:

    • getName():返回方法名称,例如:"getScore";
    • getReturnType():返回方法返回值类型,也是一个Class实例,例如:String.class;
    • getParameterTypes():返回方法的参数类型,是一个Class数组,例如:{String.class, int.class};
    • getModifiers():返回方法的修饰符,它是一个int,不同的bit表示不同的含义。

    当我们获取到一个Method对象时,就可以对它进行调用。我们以下面的代码为例:

    String s = "Hello world";
    String r = s.substring(6); // "world"
    

    如果用反射来调用substring方法,需要以下代码:

    import java.lang.reflect.Method;
    
    public class Main {
        public static void main(String[] args) throws Exception {
            // String对象:
            String s = "Hello world";
            // 获取String substring(int)方法,参数为int:
            Method m = String.class.getMethod("substring", int.class);
            // 在s对象上调用该方法并获取结果:
            String r = (String) m.invoke(s, 6);
            // 打印调用结果:
            System.out.println(r);
        }
    }
    
    world
    

    调用静态方法

    如果获取到的Method表示一个静态方法,调用静态方法时,由于无需指定实例对象,所以invoke方法传入的第一个参数永远为null。我们以Integer.parseInt(String)为例:

    import java.lang.reflect.Method;
    
    public class Main {
        public static void main(String[] args) throws Exception {
            // 获取Integer.parseInt(String)方法,参数为String:
            Method m = Integer.class.getMethod("parseInt", String.class);
            // 调用该静态方法并获取结果:
            Integer n = (Integer) m.invoke(null, "12345");
            // 打印调用结果:
            System.out.println(n);
        }
    }
    

    调用非public方法

    和Field类似,对于非public方法,我们虽然可以通过Class.getDeclaredMethod()获取该方法实例,但直接对其调用将得到一个IllegalAccessException。为了调用非public方法,我们通过Method.setAccessible(true)允许其调用:

    import java.lang.reflect.Method;
    
    public class Main {
        public static void main(String[] args) throws Exception {
            Person p = new Person();
            Method m = p.getClass().getDeclaredMethod("setName", String.class);
            m.setAccessible(true);
            m.invoke(p, "Bob");
            System.out.println(p.name);
        }
    }
    
    class Person {
        String name;
        private void setName(String name) {
            this.name = name;
        }
    }
    

    此外,setAccessible(true)可能会失败。如果JVM运行期存在SecurityManager,那么它会根据规则进行检查,有可能阻止setAccessible(true)。例如,某个SecurityManager可能不允许对java和javax开头的package的类调用setAccessible(true),这样可以保证JVM核心库的安全。

    动态代理

    我们来比较Java的class和interface的区别:

    • 可以实例化class(非abstract);
    • 不能实例化interface。

    所有interface类型的变量总是通过向上转型并指向某个实例的:

    CharSequence cs = new StringBuilder();
    

    有没有可能不编写实现类,直接在运行期创建某个interface的实例呢?

    这是可能的,因为Java标准库提供了一种动态代理(Dynamic Proxy)的机制:可以在运行期动态创建某个interface的实例。

    什么叫运行期动态创建?听起来好像很复杂。所谓动态代理,是和静态相对应的。我们来看静态代码怎么写:

    定义接口:

    public interface Hello {
        void morning(String name);
    }
    

    编写实现类:

    public class HelloWorld implements Hello {
        public void morning(String name) {
            System.out.println("Good morning, " + name);
        }
    }
    

    创建实例,转型为接口并调用:

    Hello hello = new HelloWorld();
    hello.morning("Bob");
    

    这种方式就是我们通常编写代码的方式。

    还有一种方式是动态代码,我们仍然先定义了接口Hello,但是我们并不去编写实现类,而是直接通过JDK提供的一个Proxy.newProxyInstance()创建了一个Hello接口对象。这种没有实现类但是在运行期动态创建了一个接口对象的方式,我们称为动态代码。JDK提供的动态创建接口对象的方式,就叫动态代理。

    一个最简单的动态代理实现如下:

    import java.lang.reflect.InvocationHandler;
    import java.lang.reflect.Method;
    import java.lang.reflect.Proxy;
    
    public class Main {
        public static void main(String[] args) {
            InvocationHandler handler = new InvocationHandler() {
                @Override
                public Object invoke(Object proxy, Method method, Object[] args) throws Throwable {
                    System.out.println(method);
                    if (method.getName().equals("morning")) {
                        System.out.println("Good morning, " + args[0]);
                    }
                    return null;
                }
            };
            Hello hello = (Hello) Proxy.newProxyInstance(
                Hello.class.getClassLoader(), // 传入ClassLoader
                new Class[] { Hello.class }, // 传入要实现的接口
                handler); // 传入处理调用方法的InvocationHandler
            hello.morning("Bob");
        }
    }
    
    interface Hello {
        void morning(String name);
    }
    

    在运行期动态创建一个interface实例的方法如下:

    • 定义一个InvocationHandler实例,它负责实现接口的方法调用;
    • 通过Proxy.newProxyInstance()创建interface实例,它需要3个参数:
      1.使用的ClassLoader,通常就是接口类的ClassLoader;
      2.需要实现的接口数组,至少需要传入一个接口进去;
      3.用来处理接口方法调用的InvocationHandler实例。
    • 将返回的Object强制转型为接口。

    动态代理实际上是JDK在运行期动态创建class字节码并加载的过程,它并没有什么黑魔法,把上面的动态代理改写为静态实现类大概长这样:

    public class HelloDynamicProxy implements Hello {
        InvocationHandler handler;
        public HelloDynamicProxy(InvocationHandler handler) {
            this.handler = handler;
        }
        public void morning(String name) {
            handler.invoke(
               this,
               Hello.class.getMethod("morning"),
               new Object[] { name });
        }
    }
    

    其实就是JDK帮我们自动编写了一个上述类(不需要源码,可以直接生成字节码),并不存在可以直接实例化接口的黑魔法。

    注解(Annotation)

    使用注解

    什么是注解(Annotation)?注解是放在Java源码的类、方法、字段、参数前的一种特殊“注释”:

    // this is a component:
    @Resource("hello")
    public class Hello {
        @Inject
        int n;
    
        @PostConstruct
        public void hello(@Param String name) {
            System.out.println(name);
        }
    
        @Override
        public String toString() {
            return "Hello";
        }
    }
    

    注释会被编译器直接忽略,注解则可以被编译器打包进入class文件,因此,注解是一种用作标注的“元数据”。

    注解的作用

    从JVM的角度看,注解本身对代码逻辑没有任何影响,如何使用注解完全由工具决定。

    Java的注解可以分为三类:

    第一类是由编译器使用的注解,例如:

    • @Override:让编译器检查该方法是否正确地实现了覆写;
    • @SuppressWarnings:告诉编译器忽略此处代码产生的警告。

    这类注解不会被编译进入.class文件,它们在编译后就被编译器扔掉了。

    第二类是由工具处理.class文件使用的注解,比如有些工具会在加载class的时候,对class做动态修改,实现一些特殊的功能。这类注解会被编译进入.class文件,但加载结束后并不会存在于内存中。这类注解只被一些底层库使用,一般我们不必自己处理。

    第三类是在程序运行期能够读取的注解,它们在加载后一直存在于JVM中,这也是最常用的注解。例如,一个配置了@PostConstruct的方法会在调用构造方法后自动被调用(这是Java代码读取该注解实现的功能,JVM并不会识别该注解)。

    定义一个注解时,还可以定义配置参数。配置参数可以包括:

    • 所有基本类型;
    • String;
    • 枚举类型;
    • 基本类型、String以及枚举的数组。

    因为配置参数必须是常量,所以,上述限制保证了注解在定义时就已经确定了每个参数的值。

    注解的配置参数可以有默认值,缺少某个配置参数时将使用默认值。

    此外,大部分注解会有一个名为value的配置参数,对此参数赋值,可以只写常量,相当于省略了value参数。

    如果只写注解,相当于全部使用默认值。

    举个栗子,对以下代码:

    public class Hello {
        @Check(min=0, max=100, value=55)
        public int n;
    
        @Check(value=99)
        public int p;
    
        @Check(99) // @Check(value=99)
        public int x;
    
        @Check
        public int y;
    }
    

    @Check就是一个注解。第一个@Check(min=0, max=100, value=55)明确定义了三个参数,第二个@Check(value=99)只定义了一个value参数,它实际上和@Check(99)是完全一样的。最后一个@Check表示所有参数都使用默认值。

    定义注解

    Java语言使用@interface语法来定义注解(Annotation),它的格式如下:

    public @interface Report {
        int type() default 0;
        String level() default "info";
        String value() default "";
    }
    

    注解的参数类似无参数方法,可以用default设定一个默认值(强烈推荐)。最常用的参数应当命名为value。

    元注解

    有一些注解可以修饰其他注解,这些注解就称为元注解(meta annotation)。Java标准库已经定义了一些元注解,我们只需要使用元注解,通常不需要自己去编写元注解。

    @Target

    最常用的元注解是@Target。使用@Target可以定义Annotation能够被应用于源码的哪些位置:

    • 类或接口:ElementType.TYPE;
    • 字段:ElementType.FIELD;
    • 方法:ElementType.METHOD;
    • 构造方法:ElementType.CONSTRUCTOR;
    • 方法参数:ElementType.PARAMETER。

    例如,定义注解@Report可用在方法上,我们必须添加一个@Target(ElementType.METHOD):

    @Target(ElementType.METHOD)
    public @interface Report {
        int type() default 0;
        String level() default "info";
        String value() default "";
    }
    

    定义注解@Report可用在方法或字段上,可以把@Target注解参数变为数组{ ElementType.METHOD, ElementType.FIELD }:

    @Target({
        ElementType.METHOD,
        ElementType.FIELD
    })
    public @interface Report {
        ...
    }
    

    实际上@Target定义的value是ElementType[]数组,只有一个元素时,可以省略数组的写法。

    @Retention

    另一个重要的元注解@Retention定义了Annotation的生命周期:

    • 仅编译期:RetentionPolicy.SOURCE;
    • 仅class文件:RetentionPolicy.CLASS;
    • 运行期:RetentionPolicy.RUNTIME。

    如果@Retention不存在,则该Annotation默认为CLASS。因为通常我们自定义的Annotation都是RUNTIME,所以,务必要加上@Retention(RetentionPolicy.RUNTIME)这个元注解:

    @Retention(RetentionPolicy.RUNTIME)
    public @interface Report {
        int type() default 0;
        String level() default "info";
        String value() default "";
    }
    

    @Repeatable

    使用@Repeatable这个元注解可以定义Annotation是否可重复。这个注解应用不是特别广泛。

    @Repeatable(Reports.class)
    @Target(ElementType.TYPE)
    public @interface Report {
        int type() default 0;
        String level() default "info";
        String value() default "";
    }
    
    @Target(ElementType.TYPE)
    public @interface Reports {
        Report[] value();
    }
    

    经过@Repeatable修饰后,在某个类型声明处,就可以添加多个@Report注解:

    @Report(type=1, level="debug")
    @Report(type=2, level="warning")
    public class Hello {
    }
    

    @Inherited

    使用@Inherited定义子类是否可继承父类定义的Annotation。@Inherited仅针对@Target(ElementType.TYPE)类型的annotation有效,并且仅针对class的继承,对interface的继承无效:

    @Inherited
    @Target(ElementType.TYPE)
    public @interface Report {
        int type() default 0;
        String level() default "info";
        String value() default "";
    }
    

    在使用的时候,如果一个类用到了@Report:

    @Report(type=1)
    public class Person {
    }
    

    则它的子类默认也定义了该注解:

    public class Student extends Person {
    }
    

    如何定义Annotation

    我们总结一下定义Annotation的步骤:

    第一步,用@interface定义注解:

    public @interface Report {
    }
    

    第二步,添加参数、默认值:

    public @interface Report {
        int type() default 0;
        String level() default "info";
        String value() default "";
    }
    

    把最常用的参数定义为value(),推荐所有参数都尽量设置默认值。

    第三步,用元注解配置注解:

    @Target(ElementType.TYPE)
    @Retention(RetentionPolicy.RUNTIME)
    public @interface Report {
        int type() default 0;
        String level() default "info";
        String value() default "";
    }
    

    其中,必须设置@Target和@Retention,@Retention一般设置为RUNTIME,因为我们自定义的注解通常要求在运行期读取。一般情况下,不必写@Inherited和@Repeatable

    处理注解

    Java的注解本身对代码逻辑没有任何影响。根据@Retention的配置:

    • SOURCE类型的注解在编译期就被丢掉了;
    • CLASS类型的注解仅保存在class文件中,它们不会被加载进JVM;
    • RUNTIME类型的注解会被加载进JVM,并且在运行期可以被程序读取。

    如何使用注解完全由工具决定。SOURCE类型的注解主要由编译器使用,因此我们一般只使用,不编写。CLASS类型的注解主要由底层工具库使用,涉及到class的加载,一般我们很少用到。只有RUNTIME类型的注解不但要使用,还经常需要编写。

    因此,我们只讨论如何读取RUNTIME类型的注解。

    因为注解定义后也是一种class,所有的注解都继承自java.lang.annotation.Annotation,因此,读取注解,需要使用反射API。

    Java提供的使用反射API读取Annotation的方法包括:

    判断某个注解是否存在于Class、Field、Method或Constructor:

    • Class.isAnnotationPresent(Class)
    • Field.isAnnotationPresent(Class)
    • Method.isAnnotationPresent(Class)
    • Constructor.isAnnotationPresent(Class)

    例如:

    // 判断@Report是否存在于Person类:
    Person.class.isAnnotationPresent(Report.class);
    

    使用反射API读取Annotation:

    • Class.getAnnotation(Class)
    • Field.getAnnotation(Class)
    • Method.getAnnotation(Class)
    • Constructor.getAnnotation(Class)

    例如:

    // 获取Person定义的@Report注解:
    Report report = Person.class.getAnnotation(Report.class);
    int type = report.type();
    String level = report.level();
    

    使用反射API读取Annotation有两种方法。方法一是先判断Annotation是否存在,如果存在,就直接读取:

    Class cls = Person.class;
    if (cls.isAnnotationPresent(Report.class)) {
        Report report = cls.getAnnotation(Report.class);
        ...
    }
    

    第二种方法是直接读取Annotation,如果Annotation不存在,将返回null:

    Class cls = Person.class;
    Report report = cls.getAnnotation(Report.class);
    if (report != null) {
       ...
    }
    

    读取方法、字段和构造方法的Annotation和Class类似。但要读取方法参数的Annotation就比较麻烦一点,因为方法参数本身可以看成一个数组,而每个参数又可以定义多个注解,所以,一次获取方法参数的所有注解就必须用一个二维数组来表示。例如,对于以下方法定义的注解:

    public void hello(@NotNull @Range(max=5) String name, @NotNull String prefix) {
    }
    

    要读取方法参数的注解,我们先用反射获取Method实例,然后读取方法参数的所有注解:

    // 获取Method实例:
    Method m = ...
    // 获取所有参数的Annotation:
    Annotation[][] annos = m.getParameterAnnotations();
    // 第一个参数(索引为0)的所有Annotation:
    Annotation[] annosOfName = annos[0];
    for (Annotation anno : annosOfName) {
        if (anno instanceof Range) { // @Range注解
            Range r = (Range) anno;
        }
        if (anno instanceof NotNull) { // @NotNull注解
            NotNull n = (NotNull) anno;
        }
    }
    

    使用注解

    注解如何使用,完全由程序自己决定。例如,JUnit是一个测试框架,它会自动运行所有标记为@Test的方法。

    我们来看一个@Range注解,我们希望用它来定义一个String字段的规则:字段长度满足@Range的参数定义:

    @Retention(RetentionPolicy.RUNTIME)
    @Target(ElementType.FIELD)
    public @interface Range {
        int min() default 0;
        int max() default 255;
    }
    

    在某个JavaBean中,我们可以使用该注解:

    public class Person {
        @Range(min=1, max=20)
        public String name;
    
        @Range(max=10)
        public String city;
    }
    

    但是,定义了注解,本身对程序逻辑没有任何影响。我们必须自己编写代码来使用注解。这里,我们编写一个Person实例的检查方法,它可以检查Person实例的String字段长度是否满足@Range的定义:

    void check(Person person) throws IllegalArgumentException, ReflectiveOperationException {
        // 遍历所有Field:
        for (Field field : person.getClass().getFields()) {
            // 获取Field定义的@Range:
            Range range = field.getAnnotation(Range.class);
            // 如果@Range存在:
            if (range != null) {
                // 获取Field的值:
                Object value = field.get(person);
                // 如果值是String:
                if (value instanceof String) {
                    String s = (String) value;
                    // 判断值是否满足@Range的min/max:
                    if (s.length() < range.min() || s.length() > range.max()) {
                        throw new IllegalArgumentException("Invalid field: " + field.getName());
                    }
                }
            }
        }
    }
    

    这样一来,我们通过@Range注解,配合check()方法,就可以完成Person实例的检查。注意检查逻辑完全是我们自己编写的,JVM不会自动给注解添加任何额外的逻辑。

    泛型

    TODO.

    集合

    TODO.

    I/O

    File对象

    读取文件

    import java.io.*;
    
    public class Main {
        public static void main(String[] args) {
            File f = new File("C:\Windows\notepad.exe");//Windows
            File f = new File("/usr/bin/javac");//Linux
            System.out.println(f);
        }
    }
    

    注意Windows平台使用作为路径分隔符,在Java字符串中需要用表示一个。Linux平台使用/作为路径分隔符.

    File对象既可以表示文件,也可以表示目录。
    调用isFile(),判断该File对象是否是一个已存在的文件,调用isDirectory(),判断该File对象是否是一个已存在的目录

    创建和删除文件

    当File对象表示一个文件时,可以通过createNewFile()创建一个新文件,用delete()删除该文件:

    File file = new File("/path/to/file");
    if (file.createNewFile()) {
        // 文件创建成功:
        // TODO:
        if (file.delete()) {
            // 删除文件成功:
        }
    }
    

    有些时候,程序需要读写一些临时文件,File对象提供了createTempFile()来创建一个临时文件,以及deleteOnExit()在JVM退出时自动删除该文件。

    import java.io.*;
    
    public class Main {
        public static void main(String[] args) throws IOException {
            File f = File.createTempFile("tmp-", ".txt"); // 提供临时文件的前缀和后缀
            f.deleteOnExit(); // JVM退出时自动删除
            System.out.println(f.isFile());
            System.out.println(f.getAbsolutePath());
        }
    }
    

    遍历文件和目录

    当File对象表示一个目录时,可以使用list()和listFiles()列出目录下的文件和子目录名。listFiles()提供了一系列重载方法,可以过滤不想要的文件和目录:

    import java.io.*;
    
    public class Main {
        public static void main(String[] args) throws IOException {
            File f = new File("C:\Windows");
            File[] fs1 = f.listFiles(); // 列出所有文件和子目录
            printFiles(fs1);
            File[] fs2 = f.listFiles(new FilenameFilter() { // 仅列出.exe文件
                public boolean accept(File dir, String name) {
                    return name.endsWith(".exe"); // 返回true表示接受该文件
                }
            });
            printFiles(fs2);
        }
    
        static void printFiles(File[] files) {
            System.out.println("==========");
            if (files != null) {
                for (File f : files) {
                    System.out.println(f);
                }
            }
            System.out.println("==========");
        }
    }
    

    和文件操作类似,File对象如果表示一个目录,可以通过以下方法创建和删除目录:

    • boolean mkdir():创建当前File对象表示的目录;
    • boolean mkdirs():创建当前File对象表示的目录,并在必要时将不存在的父目录也创建出来;
    • boolean delete():删除当前File对象表示的目录,当前目录必须为空才能删除成功。

    Path

    Java标准库还提供了一个Path对象,它位于java.nio.file包。Path对象和File对象类似,但操作更加简单:

    import java.io.*;
    import java.nio.file.*;
    
    public class Main {
        public static void main(String[] args) throws IOException {
            Path p1 = Paths.get(".", "project", "study"); // 构造一个Path对象
            System.out.println(p1);
            Path p2 = p1.toAbsolutePath(); // 转换为绝对路径
            System.out.println(p2);
            Path p3 = p2.normalize(); // 转换为规范路径
            System.out.println(p3);
            File f = p3.toFile(); // 转换为File对象
            System.out.println(f);
            for (Path p : Paths.get("..").toAbsolutePath()) { // 可以直接遍历Path
                System.out.println("  " + p);
            }
        }
    }
    

    如果需要对目录进行复杂的拼接、遍历等操作,使用Path对象更方便。

    输入

    Java中对文件的操作是以流的方式进行的。流是Java内存中的一组有序数据序列。Java将数据从源(文件、内存、键盘、网络)读入到内存中,形成了流,然后将这些流还可以写到另外的目的地(文件、内存、控制台、网络),之所以称为流,是因为这个数据序列在不同时刻所操作的是源的不同部分。

    InputStream就是Java标准库提供的最基本的输入流。它位于java.io这个包里。java.io包提供了所有同步IO的功能。

    要特别注意的一点是,InputStream并不是一个接口,而是一个抽象类,它是所有输入流的超类。这个抽象类定义的一个最重要的方法就是int read(),签名如下:

    public abstract int read() throws IOException;
    

    这个方法会读取输入流的下一个字节,并返回字节表示的int值(0~255)。如果已读到末尾,返回-1表示不能继续读取了。

    FileInputStream是InputStream的一个子类。顾名思义,FileInputStream就是从文件流中读取数据。下面的代码演示了如何完整地读取一个FileInputStream的所有字节:

    public void readFile() throws IOException {
        // 创建一个FileInputStream对象:
        InputStream input = new FileInputStream("src/readme.txt");
        for (;;) {
            int n = input.read(); // 反复调用read()方法,直到返回-1
            if (n == -1) {
                break;
            }
            System.out.println(n); // 打印byte的值
        }
        input.close(); // 关闭流
    }
    

    输出流

    和InputStream相反,OutputStream是Java标准库提供的最基本的输出流。

    和InputStream类似,OutputStream也是抽象类,它是所有输出流的超类。这个抽象类定义的一个最重要的方法就是void write(int b),签名如下:

    public abstract void write(int b) throws IOException;
    

    我们以FileOutputStream为例,演示如何将若干个字节写入文件流:

    public void writeFile() throws IOException {
        OutputStream output = new FileOutputStream("out/readme.txt");
        output.write(72); // H
        output.write(101); // e
        output.write(108); // l
        output.write(108); // l
        output.write(111); // o
        output.close();
    }
    

    Filter模式

    Java的IO标准库提供的InputStream根据来源可以包括:

    • FileInputStream:从文件读取数据,是最终数据源;
    • ServletInputStream:从HTTP请求读取数据,是最终数据源;
    • Socket.getInputStream():从TCP连接读取数据,是最终数据源;
    • ...

    通过一个“基础”组件再叠加各种“附加”功能组件的模式,称之为Filter模式(或者装饰器模式:Decorator)。

    import java.io.*;
    
    public class Main {
        public static void main(String[] args) throws IOException {
            byte[] data = "hello, world!".getBytes("UTF-8");
            try (CountInputStream input = new CountInputStream(new ByteArrayInputStream(data))) {
                int n;
                while ((n = input.read()) != -1) {
                    System.out.println((char)n);
                }
                System.out.println("Total read " + input.getBytesRead() + " bytes");
            }
        }
    }
    
    class CountInputStream extends FilterInputStream {
        private int count = 0;
    
        CountInputStream(InputStream in) {
            super(in);
        }
    
        public int getBytesRead() {
            return this.count;
        }
    
        public int read() throws IOException {
            int n = in.read();
            if (n != -1) {
                this.count ++;
            }
            return n;
        }
    
        public int read(byte[] b, int off, int len) throws IOException {
            int n = in.read(b, off, len);
            this.count += n;
            return n;
        }
    }
    

    操作Zip

    ZipInputStream是一种FilterInputStream,它可以直接读取zip包的内容:

    另一个JarInputStream是从ZipInputStream派生,它增加的主要功能是直接读取jar文件里面的MANIFEST.MF文件。因为本质上jar包就是zip包,只是额外附加了一些固定的描述文件。

    读取zip包

    我们要创建一个ZipInputStream,通常是传入一个FileInputStream作为数据源,然后,循环调用getNextEntry(),直到返回null,表示zip流结束。

    一个ZipEntry表示一个压缩文件或目录,如果是压缩文件,我们就用read()方法不断读取,直到返回-1:

    try (ZipInputStream zip = new ZipInputStream(new FileInputStream(...))) {
        ZipEntry entry = null;
        while ((entry = zip.getNextEntry()) != null) {
            String name = entry.getName();
            if (!entry.isDirectory()) {
                int n;
                while ((n = zip.read()) != -1) {
                    ...
                }
            }
        }
    }
    

    写入zip包

    ZipOutputStream是一种FilterOutputStream,它可以直接写入内容到zip包。我们要先创建一个ZipOutputStream,通常是包装一个FileOutputStream,然后,每写入一个文件前,先调用putNextEntry(),然后用write()写入byte[]数据,写入完毕后调用closeEntry()结束这个文件的打包。

    try (ZipOutputStream zip = new ZipOutputStream(new FileOutputStream(...))) {
        File[] files = ...
        for (File file : files) {
            zip.putNextEntry(new ZipEntry(file.getName()));
            zip.write(getFileDataAsBytes(file));
            zip.closeEntry();
        }
    }
    

    上面的代码没有考虑文件的目录结构。如果要实现目录层次结构,new ZipEntry(name)传入的name要用相对路径。

    序列化

    序列化是指把一个Java对象变成二进制内容,本质上就是一个byte[]数组。

    为什么要把Java对象序列化呢?因为序列化后可以把byte[]保存到文件中,或者把byte[]通过网络传输到远程,这样,就相当于把Java对象存储到文件或者通过网络传输出去了。

    有序列化,就有反序列化,即把一个二进制内容(也就是byte[]数组)变回Java对象。有了反序列化,保存到文件中的byte[]数组又可以“变回”Java对象,或者从网络上读取byte[]并把它“变回”Java对象。

    我们来看看如何把一个Java对象序列化。

    一个Java对象要能序列化,必须实现一个特殊的java.io.Serializable接口,它的定义如下:

    public interface Serializable {
    }
    

    Serializable接口没有定义任何方法,它是一个空接口。我们把这样的空接口称为“标记接口”(Marker Interface),实现了标记接口的类仅仅是给自身贴了个“标记”,并没有增加任何方法。

    把一个Java对象变为byte[]数组,需要使用ObjectOutputStream。它负责把一个Java对象写入一个字节流:

    import java.io.*;
    import java.util.Arrays;
    
    public class Main {
        public static void main(String[] args) throws IOException {
            ByteArrayOutputStream buffer = new ByteArrayOutputStream();
            try (ObjectOutputStream output = new ObjectOutputStream(buffer)) {
                // 写入int:
                output.writeInt(12345);
                // 写入String:
                output.writeUTF("Hello");
                // 写入Object:
                output.writeObject(Double.valueOf(123.456));
            }
            System.out.println(Arrays.toString(buffer.toByteArray()));
        }
    }
    

    ObjectOutputStream既可以写入基本类型,如int,boolean,也可以写入String(以UTF-8编码),还可以写入实现了Serializable接口的Object。

    因为写入Object时需要大量的类型信息,所以写入的内容很大。

    反序列化

    和ObjectOutputStream相反,ObjectInputStream负责从一个字节流读取Java对象:

    try (ObjectInputStream input = new ObjectInputStream(...)) {
        int n = input.readInt();
        String s = input.readUTF();
        Double d = (Double) input.readObject();
    }
    

    除了能读取基本类型和String类型外,调用readObject()可以直接返回一个Object对象。要把它变成一个特定类型,必须强制转型。

    readObject()可能抛出的异常有:

    • ClassNotFoundException:没有找到对应的Class;
    • InvalidClassException:Class不匹配。

    对于ClassNotFoundException,这种情况常见于一台电脑上的Java程序把一个Java对象,例如,Person对象序列化以后,通过网络传给另一台电脑上的另一个Java程序,但是这台电脑的Java程序并没有定义Person类,所以无法反序列化。

    对于InvalidClassException,这种情况常见于序列化的Person对象定义了一个int类型的age字段,但是反序列化时,Person类定义的age字段被改成了long类型,所以导致class不兼容。

    为了避免这种class定义变动导致的不兼容,Java的序列化允许class定义一个特殊的serialVersionUID静态变量,用于标识Java类的序列化“版本”,通常可以由IDE自动生成。如果增加或修改了字段,可以改变serialVersionUID的值,这样就能自动阻止不匹配的class版本:

    public class Person implements Serializable {
        private static final long serialVersionUID = 2709425275741743919L;
    }
    

    要特别注意反序列化的几个重要特点:

    反序列化时,由JVM直接构造出Java对象,不调用构造方法,构造方法内部的代码,在反序列化时根本不可能执行。

    Reader

    Reader是Java的IO库提供的另一个输入流接口。和InputStream的区别是,InputStream是一个字节流,即以byte为单位读取,而Reader是一个字符流,即以char为单位读取:

    InputStream Reader
    字节流,以byte为单位 字符流,以char为单位
    读取字节(-1,0~255):int read() 读取字符(-1,0~65535):int read()
    读到字节数组:int read(byte[] b) 读到字符数组:int read(char[] c)

    Writer

    Reader是带编码转换器的InputStream,它把byte转换为char,而Writer就是带编码转换器的OutputStream,它把char转换为byte并输出。

    Writer和OutputStream的区别如下:

    OutputStream Writer
    字节流,以byte为单位 字符流,以char为单位
    写入字节(0~255):void write(int b) 写入字符(0~65535):void write(int c)
    写入字节数组:void write(byte[] b) 写入字符数组:void write(char[] c)
    无对应方法 写入String:void write(String s)

    PrintStream和PrintWriter

    PrintStream是一种能接收各种数据类型的输出,打印数据时比较方便:

    • System.out是标准输出;
    • System.err是标准错误输出。

    PrintWriter是基于Writer的输出。

    日期和时间

    TODO.

    单元测试

    TODO.

    正则表达式

    TODO.

    加密与安全

    TODO.

    多线程

    TODO.

    Maven基础

    简言之Maven是包管理器。

    Maven是一个Java项目管理和构建工具,它可以定义项目结构、项目依赖,并使用统一的方式进行自动化构建,是Java项目不可缺少的工具。

    在了解Maven之前,我们先来看看一个Java项目需要的东西。首先,我们需要确定引入哪些依赖包。例如,如果我们需要用到commons logging,我们就必须把commons logging的jar包放入classpath。如果我们还需要log4j,就需要把log4j相关的jar包都放到classpath中。这些就是依赖包的管理。

    其次,我们要确定项目的目录结构。例如,src目录存放Java源码,resources目录存放配置文件,bin目录存放编译生成的.class文件。

    此外,我们还需要配置环境,例如JDK的版本,编译打包的流程,当前代码的版本号。

    最后,除了使用Eclipse这样的IDE进行编译外,我们还必须能通过命令行工具进行编译,才能够让项目在一个独立的服务器上编译、测试、部署。

    这些工作难度不大,但是非常琐碎且耗时。如果每一个项目都自己搞一套配置,肯定会一团糟。我们需要的是一个标准化的Java项目管理和构建工具。

    Maven就是是专门为Java项目打造的管理和构建工具,它的主要功能有:

    • 提供了一套标准化的项目结构;
    • 提供了一套标准化的构建流程(编译,测试,打包,发布……);
    • 提供了一套依赖管理机制。

    Maven项目结构

    一个使用Maven管理的普通的Java项目,它的目录结构默认如下:

    a-maven-project
    ├── pom.xml
    ├── src
    │   ├── main
    │   │   ├── java
    │   │   └── resources
    │   └── test
    │       ├── java
    │       └── resources
    └── target
    

    项目的根目录a-maven-project是项目名,它有一个项目描述文件pom.xml,存放Java源码的目录是src/main/java,存放资源文件的目录是src/main/resources,存放测试源码的目录是src/test/java,存放测试资源的目录是src/test/resources,最后,所有编译、打包生成的文件都放在target目录里。这些就是一个Maven项目的标准目录结构。

    所有的目录结构都是约定好的标准结构,我们千万不要随意修改目录结构。使用标准结构不需要做任何配置,Maven就可以正常使用。

    我们再来看最关键的一个项目描述文件pom.xml,它的内容长得像下面:

    <project ...>
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.itranswarp.learnjava</groupId>
        <artifactId>hello</artifactId>
        <version>1.0</version>
        <packaging>jar</packaging>
        <properties>
            ...
        </properties>
        <dependencies>
            <dependency>
                <groupId>commons-logging</groupId>
                <artifactId>commons-logging</artifactId>
                <version>1.2</version>
            </dependency>
        </dependencies>
    </project>
    

    其中,groupId类似于Java的包名,通常是公司或组织名称,artifactId类似于Java的类名,通常是项目名称,再加上version,一个Maven工程就是由groupId,artifactId和version作为唯一标识。我们在引用其他第三方库的时候,也是通过这3个变量确定。例如,依赖commons-logging:

    <dependency>
        <groupId>commons-logging</groupId>
        <artifactId>commons-logging</artifactId>
        <version>1.2</version>
    </dependency>
    

    使用声明一个依赖后,Maven就会自动下载这个依赖包并把它放到classpath中。

    安装Maven

    下载Maven

    要安装Maven,可以从Maven官网下载最新的Maven 3.6.x,如:apache-maven-3.6.3-bin.zip,然后在本地解压。

    设置环境变量-Linux

    M2_HOME=/path/to/maven-3.6.x
    PATH=$PATH:$M2_HOME/bin
    

    测试:

    ➜  ~ mvn -version
    Apache Maven 3.6.3 (cecedd343002696d0abb50b32b541b8a6ba2883f)
    Maven home: /home/heisk/soft/apache-maven-3.6.3
    Java version: 1.8.0_231, vendor: Oracle Corporation, runtime: /home/heisk/soft/jdk1.8.0_231/jre
    Default locale: en_US, platform encoding: UTF-8
    OS name: "linux", version: "4.15.0-96-generic", arch: "amd64", family: "unix"
    

    设置环境变量-Winsows

    Windows可以把%M2_HOME%in添加到系统Path变量中,如D:apache-maven-3.6.3in

    然后,打开命令行窗口,输入mvn -version,应该看到Maven的版本信息,如果提示命令未找到,说明系统PATH路径有误,需要修复后再运行。

    C:UsersAdministrator>mvn -version
    Apache Maven 3.6.3 (cecedd343002696d0abb50b32b541b8a6ba2883f)
    Maven home: D:apache-maven-3.6.3in..
    Java version: 1.8.0_251, vendor: Oracle Corporation, runtime: C:Program FilesJavajre1.8.0_251
    Default locale: en_US, platform encoding: GBK
    OS name: "windows 10", version: "10.0", arch: "amd64", family: "windows"
    

    依赖管理

    如果我们的项目依赖第三方的jar包,例如commons logging,那么问题来了:commons logging发布的jar包在哪下载?

    如果我们还希望依赖log4j,那么使用log4j需要哪些jar包?

    类似的依赖还包括:JUnit,JavaMail,MySQL驱动等等,一个可行的方法是通过搜索引擎搜索到项目的官网,然后手动下载zip包,解压,放入classpath。但是,这个过程非常繁琐。

    Maven解决了依赖管理问题。例如,我们的项目依赖abc这个jar包,而abc又依赖xyz这个jar包:

    ┌──────────────┐
    │Sample Project│
    └──────────────┘
            │
            ▼
    ┌──────────────┐
    │     abc      │
    └──────────────┘
            │
            ▼
    ┌──────────────┐
    │     xyz      │
    └──────────────┘
    

    当我们声明了abc的依赖时,Maven自动把abc和xyz都加入了我们的项目依赖,不需要我们自己去研究abc是否需要依赖xyz。

    因此,Maven的第一个作用就是解决依赖管理。我们声明了自己的项目需要abc,Maven会自动导入abc的jar包,再判断出abc需要xyz,又会自动导入xyz的jar包,这样,最终我们的项目会依赖abc和xyz两个jar包。

    我们来看一个复杂依赖示例:

    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
        <version>1.4.2.RELEASE</version>
    </dependency>
    

    当我们声明一个spring-boot-starter-web依赖时,Maven会自动解析并判断最终需要大概二三十个其他依赖:

    spring-boot-starter-web
      spring-boot-starter
        spring-boot
        sprint-boot-autoconfigure
        spring-boot-starter-logging
          logback-classic
            logback-core
            slf4j-api
          jcl-over-slf4j
            slf4j-api
          jul-to-slf4j
            slf4j-api
          log4j-over-slf4j
            slf4j-api
        spring-core
        snakeyaml
      spring-boot-starter-tomcat
        tomcat-embed-core
        tomcat-embed-el
        tomcat-embed-websocket
          tomcat-embed-core
      jackson-databind
      ...
    

    如果我们自己去手动管理这些依赖是非常费时费力的,而且出错的概率很大。

    依赖关系

    Maven定义了几种依赖关系,分别是compile、test、runtime和provided:

    scope 说明 示例
    compile 编译时需要用到该jar包(默认) commons-logging
    test 编译Test时需要用到该jar包 junit
    runtime 编译时不需要,但运行时需要用到 mysql
    provided 编译时需要用到,但运行时由JDK或某个服务器提供 servlet-api

    其中,默认的compile是最常用的,Maven会把这种类型的依赖直接放入classpath。

    test依赖表示仅在测试时使用,正常运行时并不需要。最常用的test依赖就是JUnit:

    <dependency>
        <groupId>org.junit.jupiter</groupId>
        <artifactId>junit-jupiter-api</artifactId>
        <version>5.3.2</version>
        <scope>test</scope>
    </dependency>
    

    runtime依赖表示编译时不需要,但运行时需要。最典型的runtime依赖是JDBC驱动,例如MySQL驱动:

    <dependency>
        <groupId>mysql</groupId>
        <artifactId>mysql-connector-java</artifactId>
        <version>5.1.48</version>
        <scope>runtime</scope>
    </dependency>
    

    provided依赖表示编译时需要,但运行时不需要。最典型的provided依赖是Servlet API,编译的时候需要,但是运行时,Servlet服务器内置了相关的jar,所以运行期不需要:

    <dependency>
        <groupId>javax.servlet</groupId>
        <artifactId>javax.servlet-api</artifactId>
        <version>4.0.0</version>
        <scope>provided</scope>
    </dependency>
    

    最后一个问题是,Maven如何知道从何处下载所需的依赖?也就是相关的jar包?答案是Maven维护了一个中央仓库(repo1.maven.org),所有第三方库将自身的jar以及相关信息上传至中央仓库,Maven就可以从中央仓库把所需依赖下载到本地。

    Maven并不会每次都从中央仓库下载jar包。一个jar包一旦被下载过,就会被Maven自动缓存在本地目录(用户主目录的.m2目录),所以,除了第一次编译时因为下载需要时间会比较慢,后续过程因为有本地缓存,并不会重复下载相同的jar包。

    唯一ID

    对于某个依赖,Maven只需要3个变量即可唯一确定某个jar包:

    • groupId:属于组织的名称,类似Java的包名;
    • artifactId:该jar包自身的名称,类似Java的类名;
    • version:该jar包的版本。

    通过上述3个变量,即可唯一确定某个jar包。Maven通过对jar包进行PGP签名确保任何一个jar包一经发布就无法修改。修改已发布jar包的唯一方法是发布一个新版本。

    因此,某个jar包一旦被Maven下载过,即可永久地安全缓存在本地。

    注:只有以-SNAPSHOT结尾的版本号会被Maven视为开发版本,开发版本每次都会重复下载,这种SNAPSHOT版本只能用于内部私有的Maven repo,公开发布的版本不允许出现SNAPSHOT。

    Maven镜像

    除了可以从Maven的中央仓库下载外,还可以从Maven的镜像仓库下载。如果访问Maven的中央仓库非常慢,我们可以选择一个速度较快的Maven的镜像仓库。Maven镜像仓库定期从中央仓库同步:

               slow    ┌───────────────────┐
        ┌─────────────>│Maven Central Repo.│
        │              └───────────────────┘
        │                        │
        │                        │sync
        │                        ▼
    ┌───────┐  fast    ┌───────────────────┐
    │ User  │─────────>│Maven Mirror Repo. │
    └───────┘          └───────────────────┘
    

    中国区用户可以使用阿里云提供的Maven镜像仓库。使用Maven镜像仓库需要一个配置,在用户主目录下进入.m2目录,创建一个settings.xml配置文件,内容如下:

    <settings>
        <mirrors>
            <mirror>
                <id>aliyun</id>
                <name>aliyun</name>
                <mirrorOf>central</mirrorOf>
                <!-- 国内推荐阿里云的Maven镜像 -->
                <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
            </mirror>
        </mirrors>
    </settings>
    

    配置镜像仓库后,Maven的下载速度就会非常快。

    搜索第三方组件

    最后一个问题:如果我们要引用一个第三方组件,比如okhttp,如何确切地获得它的groupId、artifactId和version?方法是通过search.maven.org搜索关键字,找到对应的组件后,直接复制.

    在IDE中使用Maven

    几乎所有的IDE都内置了对Maven的支持。在Eclipse中,可以直接创建或导入Maven项目。如果导入后的Maven项目有错误,可以尝试选择项目后点击右键,选择Maven - Update Project...更新.

    TODO.

    网络编程

    网络编程是Java最擅长的方向之一,使用Java进行网络编程时,由虚拟机实现了底层复杂的网络协议,Java程序只需要调用Java标准库提供的接口,就可以简单高效地编写网络程序。

    网络编程基础

    在学习Java网络编程之前,我们先来了解什么是计算机网络。

    计算机网络是指两台或更多的计算机组成的网络,在同一个网络中,任意两台计算机都可以直接通信,因为所有计算机都需要遵循同一种网络协议。

    那什么是互联网呢?互联网是网络的网络(internet),即把很多计算机网络连接起来,形成一个全球统一的互联网。

    对某个特定的计算机网络来说,它可能使用网络协议ABC,而另一个计算机网络可能使用网络协议XYZ。如果计算机网络各自的通讯协议不统一,就没法把不同的网络连接起来形成互联网。因此,为了把计算机网络接入互联网,就必须使用TCP/IP协议。

    TCP/IP协议泛指互联网协议,其中最重要的两个协议是TCP协议和IP协议。只有使用TCP/IP协议的计算机才能够联入互联网,使用其他网络协议(例如NetBIOS、AppleTalk协议等)是无法联入互联网的。

    IP地址

    在互联网中,一个IP地址用于唯一标识一个网络接口(Network Interface)。一台联入互联网的计算机肯定有一个IP地址,但也可能有多个IP地址。

    IP地址分为IPv4和IPv6两种。IPv4采用32位地址,类似101.202.99.12,而IPv6采用128位地址,类似2001:0DA8:100A:0000:0000:1020:F2F3:1428。IPv4地址总共有232个(大约42亿),而IPv6地址则总共有2128个(大约340万亿亿亿亿),IPv4的地址目前已耗尽,而IPv6的地址是根本用不完的。

    IP地址又分为公网IP地址和内网IP地址。公网IP地址可以直接被访问,内网IP地址只能在内网访问。内网IP地址类似于:

    • 192.168.x.x
    • 10.x.x.x

    有一个特殊的IP地址,称之为本机地址,它总是127.0.0.1。

    IPv4地址实际上是一个32位整数。例如:

    106717964 = 0x65ca630c
    = 65 ca 63 0c
    = 101.202.99.12

    如果一台计算机只有一个网卡,并且接入了网络,那么,它有一个本机地址127.0.0.1,还有一个IP地址,例如101.202.99.12,可以通过这个IP地址接入网络。

    如果一台计算机有两块网卡,那么除了本机地址,它可以有两个IP地址,可以分别接入两个网络。通常连接两个网络的设备是路由器或者交换机,它至少有两个IP地址,分别接入不同的网络,让网络之间连接起来。

    如果两台计算机位于同一个网络,那么他们之间可以直接通信,因为他们的IP地址前段是相同的,也就是网络号是相同的。网络号是IP地址通过子网掩码过滤后得到的。例如:

    某台计算机的IP是101.202.99.2,子网掩码是255.255.255.0,那么计算该计算机的网络号是:

    IP = 101.202.99.2
    Mask = 255.255.255.0
    Network = IP & Mask = 101.202.99.0
    

    每台计算机都需要正确配置IP地址和子网掩码,根据这两个就可以计算网络号,如果两台计算机计算出的网络号相同,说明两台计算机在同一个网络,可以直接通信。如果两台计算机计算出的网络号不同,那么两台计算机不在同一个网络,不能直接通信,它们之间必须通过路由器或者交换机这样的网络设备间接通信,我们把这种设备称为网关。

    网关的作用就是连接多个网络,负责把来自一个网络的数据包发到另一个网络,这个过程叫路由。

    所以,一台计算机的一个网卡会有3个关键配置:

    • IP地址,例如:10.0.2.15
    • 子网掩码,例如:255.255.255.0
    • 网关的IP地址,例如:10.0.2.2

    域名

    因为直接记忆IP地址非常困难,所以我们通常使用域名访问某个特定的服务。域名解析服务器DNS负责把域名翻译成对应的IP,客户端再根据IP地址访问服务器。

    用nslookup可以查看域名对应的IP地址:

    $ nslookup www.liaoxuefeng.com
    Server:  xxx.xxx.xxx.xxx
    Address: xxx.xxx.xxx.xxx#53
    
    Non-authoritative answer:
    Name:    www.liaoxuefeng.com
    Address: 47.98.33.223
    

    有一个特殊的本机域名localhost,它对应的IP地址总是本机地址127.0.0.1

    常用协议

    IP协议是一个分组交换,它不保证可靠传输。而TCP协议是传输控制协议,它是面向连接的协议,支持可靠传输和双向通信。TCP协议是建立在IP协议之上的,简单地说,IP协议只负责发数据包,不保证顺序和正确性,而TCP协议负责控制数据包传输,它在传输数据之前需要先建立连接,建立连接后才能传输数据,传输完后还需要断开连接。TCP协议之所以能保证数据的可靠传输,是通过接收确认、超时重传这些机制实现的。并且,TCP协议允许双向通信,即通信双方可以同时发送和接收数据。

    TCP协议也是应用最广泛的协议,许多高级协议都是建立在TCP协议之上的,例如HTTP、SMTP等。

    UDP协议(User Datagram Protocol)是一种数据报文协议,它是无连接协议,不保证可靠传输。因为UDP协议在通信前不需要建立连接,因此它的传输效率比TCP高,而且UDP协议比TCP协议要简单得多。

    选择UDP协议时,传输的数据通常是能容忍丢失的,例如,一些语音视频通信的应用会选择UDP协议。

    小结

    计算机网络的基本概念主要有:

    • 计算机网络:由两台或更多计算机组成的网络;
    • 互联网:连接网络的网络;
    • IP地址:计算机的网络接口(通常是网卡)在网络中的唯一标识;
    • 网关:负责连接多个网络,并在多个网络之间转发数据的计算机,通常是路由器或交换机;
    • 网络协议:互联网使用TCP/IP协议,它泛指互联网协议簇;
    • IP协议:一种分组交换传输协议;
    • TCP协议:一种面向连接,可靠传输的协议;
    • UDP协议:一种无连接,不可靠传输的协议。

    TCP编程

    在开发网络应用程序的时候,我们又会遇到Socket这个概念。Socket是一个抽象概念,一个应用程序通过一个Socket来建立一个远程连接,而Socket内部通过TCP/IP协议把数据传输到网络:

    Socket、TCP和部分IP的功能都是由操作系统提供的,不同的编程语言只是提供了对操作系统调用的简单的封装。例如,Java提供的几个Socket相关的类就封装了操作系统提供的接口。

    为什么需要Socket进行网络通信?因为仅仅通过IP地址进行通信是不够的,同一台计算机同一时间会运行多个网络应用程序,例如浏览器、QQ、邮件客户端等。当操作系统接收到一个数据包的时候,如果只有IP地址,它没法判断应该发给哪个应用程序,所以,操作系统抽象出Socket接口,每个应用程序需要各自对应到不同的Socket,数据包才能根据Socket正确地发到对应的应用程序。

    一个Socket就是由IP地址和端口号(范围是0~65535)组成,可以把Socket简单理解为IP地址加端口号。端口号总是由操作系统分配,它是一个0~65535之间的数字,其中,小于1024的端口属于特权端口,需要管理员权限,大于1024的端口可以由任意用户的应用程序打开。

    • QQ: 101.202.99.2:1201
    • IE: 101.202.99.2:1304
    • Email: 101.202.99.2:15000

    使用Socket进行网络编程时,本质上就是两个进程之间的网络通信。其中一个进程必须充当服务器端,它会主动监听某个指定的端口,另一个进程必须充当客户端,它必须主动连接服务器的IP地址和指定端口,如果连接成功,服务器端和客户端就成功地建立了一个TCP连接,双方后续就可以随时发送和接收数据。

    因此,当Socket连接成功地在服务器端和客户端之间建立后:

    • 对服务器端来说,它的Socket是指定的IP地址和指定的端口号;
    • 对客户端来说,它的Socket是它所在计算机的IP地址和一个由操作系统分配的随机端口号。

    服务器端

    要使用Socket编程,我们首先要编写服务器端程序。Java标准库提供了ServerSocket来实现对指定IP和指定端口的监听。ServerSocket的典型实现代码如下:

    import java.io.*;
    import java.net.ServerSocket;
    import java.net.Socket;
    
    public class Server {
       public static void main(String[] args) throws IOException {
           ServerSocket ss = new ServerSocket(6666); // 监听指定端口
           System.out.println("server is running...");
           for (;;) {
               Socket sock = ss.accept();
               System.out.println("connected from " + sock.getRemoteSocketAddress());
               Thread t = new Handler(sock);
               t.start();
           }
       }
    }
    
    class Handler extends Thread {
       Socket sock;
    
       public Handler(Socket sock) {
           this.sock = sock;
       }
    
       @Override
       public void run() {
           try (InputStream input = this.sock.getInputStream()) {
               try (OutputStream output = this.sock.getOutputStream()) {
                   handle(input, output);
               }
           } catch (Exception e) {
               try {
                   this.sock.close();
               } catch (IOException ioe) {
               }
               System.out.println("client disconnected.");
           }
       }
    
       private void handle(InputStream input, OutputStream output) throws IOException {
           BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(output, "utf-8"));
           BufferedReader reader = new BufferedReader(new InputStreamReader(input, "utf-8"));
           writer.write("hello
    ");
           writer.flush();
           for (;;) {
               String s = reader.readLine();
               if (s.equals("bye")) {
                   writer.write("bye
    ");
                   writer.flush();
                   break;
               }
               writer.write("ok: " + s + "
    ");
               writer.flush();
           }
       }
    }
    

    服务器端通过代码:

    ServerSocket ss = new ServerSocket(6666);
    

    在指定端口6666监听。这里我们没有指定IP地址,表示在计算机的所有网络接口上进行监听。

    个人理解,ip是计算机的地址,端口号是应用的地址,端口号是由客户端创建的.
    或者说端口号是服务器和客户端之间的一种通信协议,有了端口号,服务器就能知道把数据发送到哪个应用了.

    如果ServerSocket监听成功,我们就使用一个无限循环来处理客户端的连接:

    for (;;) {
        Socket sock = ss.accept();
        Thread t = new Handler(sock);
        t.start();
    }
    

    注意到代码ss.accept()表示每当有新的客户端连接进来后,就返回一个Socket实例,这个Socket实例就是用来和刚连接的客户端进行通信的。由于客户端很多,要实现并发处理,我们就必须为每个新的Socket创建一个新线程来处理,这样,主线程的作用就是接收新的连接,每当收到新连接后,就创建一个新线程进行处理。

    我们在多线程编程的章节中介绍过线程池,这里也完全可以利用线程池来处理客户端连接,能大大提高运行效率。

    如果没有客户端连接进来,accept()方法会阻塞并一直等待。如果有多个客户端同时连接进来,ServerSocket会把连接扔到队列里,然后一个一个处理。对于Java程序而言,只需要通过循环不断调用accept()就可以获取新的连接。

    客户端

    相比服务器端,客户端程序就要简单很多。一个典型的客户端程序如下:

    import java.io.*;
    import java.net.Socket;
    import java.util.Scanner;
    
    public class Client {
       public static void main(String[] args) throws IOException {
           Socket sock = new Socket("10.10.90.24", 6666); // 连接指定服务器和端口
           try (InputStream input = sock.getInputStream()) {
               try (OutputStream output = sock.getOutputStream()) {
                   handle(input, output);
               }
           }
           sock.close();
           System.out.println("disconnected.");
       }
    
       private static void handle(InputStream input, OutputStream output) throws IOException {
           var writer = new BufferedWriter(new OutputStreamWriter(output, "utf-8"));
           var reader = new BufferedReader(new InputStreamReader(input, "utf-8"));
           Scanner scanner = new Scanner(System.in);
           System.out.println("[server] " + reader.readLine());
           for (;;) {
               System.out.print(">>> "); // 打印提示
               String s = scanner.nextLine(); // 读取一行输入
               writer.write(s);
               writer.newLine();
               writer.flush();
               String resp = reader.readLine();
               System.out.println("<<< " + resp);
               if (resp.equals("bye")) {
                   break;
               }
           }
       }
    }
    

    客户端程序通过:

    Socket sock = new Socket("localhost", 6666);
    

    连接到服务器端,注意上述代码的服务器地址是"localhost",表示本机地址,端口号是6666。如果连接成功,将返回一个Socket实例,用于后续通信。

    Socket流

    当Socket连接创建成功后,无论是服务器端,还是客户端,我们都使用Socket实例进行网络通信。因为TCP是一种基于流的协议,因此,Java标准库使用InputStream和OutputStream来封装Socket的数据流,这样我们使用Socket的流,和普通IO流类似:

    // 用于读取网络数据:
    InputStream in = sock.getInputStream();
    // 用于写入网络数据:
    OutputStream out = sock.getOutputStream();
    

    最后我们重点来看看,为什么写入网络数据时,要调用flush()方法。

    如果不调用flush(),我们很可能会发现,客户端和服务器都收不到数据,这并不是Java标准库的设计问题,而是我们以流的形式写入数据的时候,并不是一写入就立刻发送到网络,而是先写入内存缓冲区,直到缓冲区满了以后,才会一次性真正发送到网络,这样设计的目的是为了提高传输效率。如果缓冲区的数据很少,而我们又想强制把这些数据发送到网络,就必须调用flush()强制把缓冲区数据发送出去。

    UDP编程

    和TCP编程相比,UDP编程就简单得多,因为UDP没有创建连接,数据包也是一次收发一个,所以没有流的概念。

    在Java中使用UDP编程,仍然需要使用Socket,因为应用程序在使用UDP时必须指定网络接口(IP)和端口号。注意:UDP端口和TCP端口虽然都使用0~65535,但他们是两套独立的端口,即一个应用程序用TCP占用了端口1234,不影响另一个应用程序用UDP占用端口1234。

    服务器端

    在服务器端,使用UDP也需要监听指定的端口。Java提供了DatagramSocket来实现这个功能,代码如下:

    DatagramSocket ds = new DatagramSocket(6666); // 监听指定端口
    for (;;) { // 无限循环
        // 数据缓冲区:
        byte[] buffer = new byte[1024];
        DatagramPacket packet = new DatagramPacket(buffer, buffer.length);
        ds.receive(packet); // 收取一个UDP数据包
        // 收取到的数据存储在buffer中,由packet.getOffset(), packet.getLength()指定起始位置和长度
        // 将其按UTF-8编码转换为String:
        String s = new String(packet.getData(), packet.getOffset(), packet.getLength(), StandardCharsets.UTF_8);
        // 发送数据:
        byte[] data = "ACK".getBytes(StandardCharsets.UTF_8);
        packet.setData(data);
        ds.send(packet);
    }
    

    服务器端首先使用如下语句在指定的端口监听UDP数据包:

    DatagramSocket ds = new DatagramSocket(6666);
    

    如果没有其他应用程序占据这个端口,那么监听成功,我们就使用一个无限循环来处理收到的UDP数据包:

    for (;;) {
        ...
    }
    

    要接收一个UDP数据包,需要准备一个byte[]缓冲区,并通过DatagramPacket实现接收:

    byte[] buffer = new byte[1024];
    DatagramPacket packet = new DatagramPacket(buffer, buffer.length);
    ds.receive(packet);
    

    假设我们收取到的是一个String,那么,通过DatagramPacket返回的packet.getOffset()和packet.getLength()确定数据在缓冲区的起止位置:

    String s = new String(packet.getData(), packet.getOffset(), packet.getLength(), StandardCharsets.UTF_8);
    

    当服务器收到一个DatagramPacket后,通常必须立刻回复一个或多个UDP包,因为客户端地址在DatagramPacket中,每次收到的DatagramPacket可能是不同的客户端,如果不回复,客户端就收不到任何UDP包。

    发送UDP包也是通过DatagramPacket实现的,发送代码非常简单:

    byte[] data = ...
    packet.setData(data);
    ds.send(packet);
    

    客户端

    和服务器端相比,客户端使用UDP时,只需要直接向服务器端发送UDP包,然后接收返回的UDP包:

    DatagramSocket ds = new DatagramSocket();
    ds.setSoTimeout(1000);
    ds.connect(InetAddress.getByName("localhost"), 6666); // 连接指定服务器和端口
    // 发送:
    byte[] data = "Hello".getBytes();
    DatagramPacket packet = new DatagramPacket(data, data.length);
    ds.send(packet);
    // 接收:
    byte[] buffer = new byte[1024];
    packet = new DatagramPacket(buffer, buffer.length);
    ds.receive(packet);
    String resp = new String(packet.getData(), packet.getOffset(), packet.getLength());
    ds.disconnect();
    

    客户端打开一个DatagramSocket使用以下代码:

    DatagramSocket ds = new DatagramSocket();
    ds.setSoTimeout(1000);
    ds.connect(InetAddress.getByName("localhost"), 6666);
    

    客户端创建DatagramSocket实例时并不需要指定端口,而是由操作系统自动指定一个当前未使用的端口。紧接着,调用setSoTimeout(1000)设定超时1秒,意思是后续接收UDP包时,等待时间最多不会超过1秒,否则在没有收到UDP包时,客户端会无限等待下去。这一点和服务器端不一样,服务器端可以无限等待,因为它本来就被设计成长时间运行。

    注意到客户端的DatagramSocket还调用了一个connect()方法“连接”到指定的服务器端。不是说UDP是无连接的协议吗?为啥这里需要connect()?

    这个connect()方法不是真连接,它是为了在客户端的DatagramSocket实例中保存服务器端的IP和端口号,确保这个DatagramSocket实例只能往指定的地址和端口发送UDP包,不能往其他地址和端口发送。这么做不是UDP的限制,而是Java内置了安全检查。

    如果客户端希望向两个不同的服务器发送UDP包,那么它必须创建两个DatagramSocket实例。

    后续的收发数据和服务器端是一致的。通常来说,客户端必须先发UDP包,因为客户端不发UDP包,服务器端就根本不知道客户端的地址和端口号。

    如果客户端认为通信结束,就可以调用disconnect()断开连接:

    ds.disconnect();
    

    注意到disconnect()也不是真正地断开连接,它只是清除了客户端DatagramSocket实例记录的远程服务器地址和端口号,这样,DatagramSocket实例就可以连接另一个服务器端。

    发送Email

    我们把类似Outlook这样的邮件软件称为MUA:Mail User Agent,意思是给用户服务的邮件代理;邮件服务器则称为MTA:Mail Transfer Agent,意思是邮件中转的代理;最终到达的邮件服务器称为MDA:Mail Delivery Agent,意思是邮件到达的代理。电子邮件一旦到达MDA,就不再动了。实际上,电子邮件通常就存储在MDA服务器的硬盘上,然后等收件人通过软件或者登陆浏览器查看邮件。

    MTA和MDA这样的服务器软件通常是现成的,我们不关心这些服务器内部是如何运行的。要发送邮件,我们关心的是如何编写一个MUA的软件,把邮件发送到MTA上。

    MUA到MTA发送邮件的协议就是SMTP协议,它是Simple Mail Transport Protocol的缩写,使用标准端口25,也可以使用加密端口465或587。

    SMTP协议是一个建立在TCP之上的协议,任何程序发送邮件都必须遵守SMTP协议。使用Java程序发送邮件时,我们无需关心SMTP协议的底层原理,只需要使用JavaMail这个标准API就可以直接发送邮件。

    准备SMTP登录信息

    假设我们准备使用自己的邮件地址me@example.com给小明发送邮件,已知小明的邮件地址是xiaoming@somewhere.com,发送邮件前,我们首先要确定作为MTA的邮件服务器地址和端口号。邮件服务器地址通常是smtp.example.com,端口号由邮件服务商确定使用25、465还是587。以下是一些常用邮件服务商的SMTP信息:

    • QQ邮箱:SMTP服务器是smtp.qq.com,端口是465/587;
    • 163邮箱:SMTP服务器是smtp.163.com,端口是465;
    • Gmail邮箱:SMTP服务器是smtp.gmail.com,端口是465/587。

    有了SMTP服务器的域名和端口号,我们还需要SMTP服务器的登录信息,通常是使用自己的邮件地址作为用户名,登录口令是用户口令或者一个独立设置的SMTP口令。

    我们来看看如何使用JavaMail发送邮件。

    首先,我们需要创建一个Maven工程,并把JavaMail相关的两个依赖加入进来:

    <dependencies>
        <dependency>
            <groupId>javax.mail</groupId>
            <artifactId>javax.mail-api</artifactId>
            <version>1.6.2</version>
        </dependency>
        <dependency>
            <groupId>com.sun.mail</groupId>
            <artifactId>javax.mail</artifactId>
            <version>1.6.2</version>
        </dependency>
        ...
    

    然后,我们通过JavaMail API连接到SMTP服务器上:

    // 服务器地址:
    String smtp = "smtp.office365.com";
    // 登录用户名:
    String username = "jxsmtp101@outlook.com";
    // 登录口令:
    String password = "********";
    // 连接到SMTP服务器587端口:
    Properties props = new Properties();
    props.put("mail.smtp.host", smtp); // SMTP主机名
    props.put("mail.smtp.port", "587"); // 主机端口号
    props.put("mail.smtp.auth", "true"); // 是否需要用户认证
    props.put("mail.smtp.starttls.enable", "true"); // 启用TLS加密
    // 获取Session实例:
    Session session = Session.getInstance(props, new Authenticator() {
        protected PasswordAuthentication getPasswordAuthentication() {
            return new PasswordAuthentication(username, password);
        }
    });
    // 设置debug模式便于调试:
    session.setDebug(true);
    

    以587端口为例,连接SMTP服务器时,需要准备一个Properties对象,填入相关信息。最后获取Session实例时,如果服务器需要认证,还需要传入一个Authenticator对象,并返回指定的用户名和口令。

    当我们获取到Session实例后,打开调试模式可以看到SMTP通信的详细内容,便于调试。

    发送邮件

    发送邮件时,我们需要构造一个Message对象,然后调用Transport.send(Message)即可完成发送:

    MimeMessage message = new MimeMessage(session);
    // 设置发送方地址:
    message.setFrom(new InternetAddress("me@example.com"));
    // 设置接收方地址:
    message.setRecipient(Message.RecipientType.TO, new InternetAddress("xiaoming@somewhere.com"));
    // 设置邮件主题:
    message.setSubject("Hello", "UTF-8");
    // 设置邮件正文:
    message.setText("Hi Xiaoming...", "UTF-8");
    // 发送:
    Transport.send(message);
    

    绝大多数邮件服务器要求发送方地址和登录用户名必须一致,否则发送将失败。

    填入真实的地址,运行上述代码,我们可以在控制台看到JavaMail打印的调试信息:

    这是JavaMail打印的调试信息:
    DEBUG: setDebug: JavaMail version 1.6.2
    DEBUG: getProvider() returning javax.mail.Provider[TRANSPORT,smtp,com.sun.mail.smtp.SMTPTransport,Oracle]
    DEBUG SMTP: need username and password for authentication
    DEBUG SMTP: protocolConnect returning false, host=smtp.office365.com, ...
    DEBUG SMTP: useEhlo true, useAuth true
    开始尝试连接smtp.office365.com:
    DEBUG SMTP: trying to connect to host "smtp.office365.com", port 587, ...
    DEBUG SMTP: connected to host "smtp.office365.com", port: 587
    发送命令EHLO:
    EHLO localhost
    SMTP服务器响应250:
    250-SG3P274CA0024.outlook.office365.com Hello
    250-SIZE 157286400
    ...
    DEBUG SMTP: Found extension "SIZE", arg "157286400"
    发送命令STARTTLS:
    STARTTLS
    SMTP服务器响应220:
    220 2.0.0 SMTP server ready
    EHLO localhost
    250-SG3P274CA0024.outlook.office365.com Hello [111.196.164.63]
    250-SIZE 157286400
    250-PIPELINING
    250-...
    DEBUG SMTP: Found extension "SIZE", arg "157286400"
    ...
    尝试登录:
    DEBUG SMTP: protocolConnect login, host=smtp.office365.com, user=********, password=********
    DEBUG SMTP: Attempt to authenticate using mechanisms: LOGIN PLAIN DIGEST-MD5 NTLM XOAUTH2 
    DEBUG SMTP: Using mechanism LOGIN
    DEBUG SMTP: AUTH LOGIN command trace suppressed
    登录成功:
    DEBUG SMTP: AUTH LOGIN succeeded
    DEBUG SMTP: use8bit false
    开发发送邮件,设置FROM:
    MAIL FROM:<********@outlook.com>
    250 2.1.0 Sender OK
    设置TO:
    RCPT TO:<********@sina.com>
    250 2.1.5 Recipient OK
    发送邮件数据:
    DATA
    服务器响应354:
    354 Start mail input; end with <CRLF>.<CRLF>
    真正的邮件数据:
    Date: Mon, 2 Dec 2019 09:37:52 +0800 (CST)
    From: ********@outlook.com
    To: ********001@sina.com
    Message-ID: <1617791695.0.1575250672483@localhost>
    邮件主题是编码后的文本:
    Subject: =?UTF-8?Q?JavaMail=E9=82=AE=E4=BB=B6?=
    MIME-Version: 1.0
    Content-Type: text/plain; charset=UTF-8
    Content-Transfer-Encoding: base64
    
    邮件正文是Base64编码的文本:
    SGVsbG8sIOi/meaYr+S4gOWwgeadpeiHqmphdmFtYWls55qE6YKu5Lu277yB
    .
    邮件数据发送完成后,以
    .
    结束,服务器响应250表示发送成功:
    250 2.0.0 OK <HK0PR03MB4961.apcprd03.prod.outlook.com> [Hostname=HK0PR03MB4961.apcprd03.prod.outlook.com]
    DEBUG SMTP: message successfully delivered to mail server
    发送QUIT命令:
    QUIT
    服务器响应221结束TCP连接:
    221 2.0.0 Service closing transmission channel
    

    从上面的调试信息可以看出,SMTP协议是一个请求-响应协议,客户端总是发送命令,然后等待服务器响应。服务器响应总是以数字开头,后面的信息才是用于调试的文本。这些响应码已经被定义在SMTP协议中了,查看具体的响应码就可以知道出错原因。

    如果一切顺利,对方将收到一封文本格式的电子邮件.

    发送HTML邮件

    发送HTML邮件和文本邮件是类似的,只需要把:

    message.setText(body, "UTF-8");
    

    改为:

    message.setText(body, "UTF-8", "html");
    

    传入的body是类似<h1>Hello</h1><p>Hi, xxx</p>这样的HTML字符串即可。

    发送附件

    要在电子邮件中携带附件,我们就不能直接调用message.setText()方法,而是要构造一个Multipart对象:

    Multipart multipart = new MimeMultipart();
    // 添加text:
    BodyPart textpart = new MimeBodyPart();
    textpart.setContent(body, "text/html;charset=utf-8");
    multipart.addBodyPart(textpart);
    // 添加image:
    BodyPart imagepart = new MimeBodyPart();
    imagepart.setFileName(fileName);
    imagepart.setDataHandler(new DataHandler(new ByteArrayDataSource(input, "application/octet-stream")));
    multipart.addBodyPart(imagepart);
    // 设置邮件内容为multipart:
    message.setContent(multipart);
    

    一个Multipart对象可以添加若干个BodyPart,其中第一个BodyPart是文本,即邮件正文,后面的BodyPart是附件。BodyPart依靠setContent()决定添加的内容,如果添加文本,用setContent("...", "text/plain;charset=utf-8")添加纯文本,或者用setContent("...", "text/html;charset=utf-8")添加HTML文本。如果添加附件,需要设置文件名(不一定和真实文件名一致),并且添加一个DataHandler(),传入文件的MIME类型。二进制文件可以用application/octet-stream,Word文档则是application/msword。

    最后,通过setContent()把Multipart添加到Message中,即可发送。

    发送内嵌图片的HTML邮件

    有些童鞋可能注意到,HTML邮件中可以内嵌图片,这是怎么做到的?

    如果给一个<img src="http://example.com/test.jpg">,这样的外部图片链接通常会被邮件客户端过滤,并提示用户显示图片并不安全。只有内嵌的图片才能正常在邮件中显示。

    内嵌图片实际上也是一个附件,即邮件本身也是Multipart,但需要做一点额外的处理:

    Multipart multipart = new MimeMultipart();
    // 添加text:
    BodyPart textpart = new MimeBodyPart();
    textpart.setContent("<h1>Hello</h1><p><img src="cid:img01"></p>", "text/html;charset=utf-8");
    multipart.addBodyPart(textpart);
    // 添加image:
    BodyPart imagepart = new MimeBodyPart();
    imagepart.setFileName(fileName);
    imagepart.setDataHandler(new DataHandler(new ByteArrayDataSource(input, "image/jpeg")));
    // 与HTML的<img src="cid:img01">关联:
    imagepart.setHeader("Content-ID", "<img01>");
    multipart.addBodyPart(imagepart);
    

    在HTML邮件中引用图片时,需要设定一个ID,用类似<img src="cid:img01">引用,然后,在添加图片作为BodyPart时,除了要正确设置MIME类型(根据图片类型使用image/jpeg或image/png),还需要设置一个Header:

    imagepart.setHeader("Content-ID", "<img01>");
    

    这个ID和HTML中引用的ID对应起来,邮件客户端就可以正常显示内嵌图片.

    常见问题

    如果用户名或口令错误,会导致535登录失败:

    DEBUG SMTP: AUTH LOGIN failed
    Exception in thread "main" javax.mail.AuthenticationFailedException: 535 5.7.3 Authentication unsuccessful [HK0PR03CA0105.apcprd03.prod.outlook.com]
    

    如果登录用户和发件人不一致,会导致554拒绝发送错误:

    DEBUG SMTP: MessagingException while sending, THROW: 
    com.sun.mail.smtp.SMTPSendFailedException: 554 5.2.0 STOREDRV.Submission.Exception:SendAsDeniedException.MapiExceptionSendAsDenied;
    

    有些时候,如果邮件主题和正文过于简单,会导致554被识别为垃圾邮件的错误:

    DEBUG SMTP: MessagingException while sending, THROW: 
    com.sun.mail.smtp.SMTPSendFailedException: 554 DT:SPM
    

    接收Email

    发送Email的过程我们在上一节已经讲过了,客户端总是通过SMTP协议把邮件发送给MTA。

    接收Email则相反,因为邮件最终到达收件人的MDA服务器,所以,接收邮件是收件人用自己的客户端把邮件从MDA服务器上抓取到本地的过程。

    接收邮件使用最广泛的协议是POP3:Post Office Protocol version 3,它也是一个建立在TCP连接之上的协议。POP3服务器的标准端口是110,如果整个会话需要加密,那么使用加密端口995。

    另一种接收邮件的协议是IMAP:Internet Mail Access Protocol,它使用标准端口143和加密端口993。IMAP和POP3的主要区别是,IMAP协议在本地的所有操作都会自动同步到服务器上,并且,IMAP可以允许用户在邮件服务器的收件箱中创建文件夹。

    JavaMail也提供了IMAP协议的支持。因为POP3和IMAP的使用方式非常类似,因此我们只介绍POP3的用法。

    使用POP3收取Email时,我们无需关心POP3协议底层,因为JavaMail提供了高层接口。首先需要连接到Store对象:

    // 准备登录信息:
    String host = "pop3.example.com";
    int port = 995;
    String username = "bob@example.com";
    String password = "password";
    
    Properties props = new Properties();
    props.setProperty("mail.store.protocol", "pop3"); // 协议名称
    props.setProperty("mail.pop3.host", host);// POP3主机名
    props.setProperty("mail.pop3.port", String.valueOf(port)); // 端口号
    // 启动SSL:
    props.put("mail.smtp.socketFactory.class", "javax.net.ssl.SSLSocketFactory");
    props.put("mail.smtp.socketFactory.port", String.valueOf(port));
    
    // 连接到Store:
    URLName url = new URLName("pop3", host, post, "", username, password);
    Session session = Session.getInstance(props, null);
    session.setDebug(true); // 显示调试信息
    Store store = new POP3SSLStore(session, url);
    store.connect();
    

    一个Store对象表示整个邮箱的存储,要收取邮件,我们需要通过Store访问指定的Folder(文件夹),通常是INBOX表示收件箱:

    // 获取收件箱:
    Folder folder = store.getFolder("INBOX");
    // 以读写方式打开:
    folder.open(Folder.READ_WRITE);
    // 打印邮件总数/新邮件数量/未读数量/已删除数量:
    System.out.println("Total messages: " + folder.getMessageCount());
    System.out.println("New messages: " + folder.getNewMessageCount());
    System.out.println("Unread messages: " + folder.getUnreadMessageCount());
    System.out.println("Deleted messages: " + folder.getDeletedMessageCount());
    // 获取每一封邮件:
    Message[] messages = folder.getMessages();
    for (Message message : messages) {
        // 打印每一封邮件:
        printMessage((MimeMessage) message);
    }
    

    当我们获取到一个Message对象时,可以强制转型为MimeMessage,然后打印出邮件主题、发件人、收件人等信息:

    void printMessage(MimeMessage msg) throws IOException, MessagingException {
        // 邮件主题:
        System.out.println("Subject: " + MimeUtility.decodeText(msg.getSubject()));
        // 发件人:
        Address[] froms = msg.getFrom();
        InternetAddress address = (InternetAddress) froms[0];
        String personal = address.getPersonal();
        String from = personal == null ? address.getAddress() : (MimeUtility.decodeText(personal) + " <" + address.getAddress() + ">");
        System.out.println("From: " + from);
        // 继续打印收件人:
        ...
    }
    

    比较麻烦的是获取邮件的正文。一个MimeMessage对象也是一个Part对象,它可能只包含一个文本,也可能是一个Multipart对象,即由几个Part构成,因此,需要递归地解析出完整的正文:

    String getBody(Part part) throws MessagingException, IOException {
        if (part.isMimeType("text/*")) {
            // Part是文本:
            return part.getContent().toString();
        }
        if (part.isMimeType("multipart/*")) {
            // Part是一个Multipart对象:
            Multipart multipart = (Multipart) part.getContent();
            // 循环解析每个子Part:
            for (int i = 0; i < multipart.getCount(); i++) {
                BodyPart bodyPart = multipart.getBodyPart(i);
                String body = getBody(bodyPart);
                if (!body.isEmpty()) {
                    return body;
                }
            }
        }
        return "";
    }
    

    最后记得关闭Folder和Store:

    folder.close(true); // 传入true表示删除操作会同步到服务器上(即删除服务器收件箱的邮件)
    store.close();
    

    HTTP编程

    什么是HTTP?HTTP就是目前使用最广泛的Web应用程序使用的基础协议,例如,浏览器访问网站,手机App访问后台服务器,都是通过HTTP协议实现的。

    HTTP是HyperText Transfer Protocol的缩写,翻译为超文本传输协议,它是基于TCP协议之上的一种请求-响应协议。

    我们来看一下浏览器请求访问某个网站时发送的HTTP请求-响应。当浏览器希望访问某个网站时,浏览器和网站服务器之间首先建立TCP连接,且服务器总是使用80端口和加密端口443,然后,浏览器向服务器发送一个HTTP请求,服务器收到后,返回一个HTTP响应,并且在响应中包含了HTML的网页内容,这样,浏览器解析HTML后就可以给用户显示网页了。一个完整的HTTP请求-响应如下:

    HTTP请求的格式是固定的,它由HTTP Header和HTTP Body两部分构成。第一行总是请求方法 路径 HTTP版本,例如,GET / HTTP/1.1表示使用GET请求,路径是/,版本是HTTP/1.1。

    后续的每一行都是固定的Header: Value格式,我们称为HTTP Header,服务器依靠某些特定的Header来识别客户端请求,例如:

    • Host:表示请求的域名,因为一台服务器上可能有多个网站,因此有必要依靠Host来识别用于请求;
    • User-Agent:表示客户端自身标识信息,不同的浏览器有不同的标识,服务器依靠User-Agent判断客户端类型;
    • Accept:表示客户端能处理的HTTP响应格式,*/*表示任意格式,text/*表示任意文本,image/png表示PNG格式的图片;
    • Accept-Language:表示客户端接收的语言,多种语言按优先级排序,服务器依靠该字段给用户返回特定语言的网页版本。

    如果是GET请求,那么该HTTP请求只有HTTP Header,没有HTTP Body。如果是POST请求,那么该HTTP请求带有Body,以一个空行分隔。一个典型的带Body的HTTP请求如下:

    POST /login HTTP/1.1
    Host: www.example.com
    Content-Type: application/x-www-form-urlencoded
    Content-Length: 30
    
    username=hello&password=123456
    

    POST请求通常要设置Content-Type表示Body的类型,Content-Length表示Body的长度,这样服务器就可以根据请求的Header和Body做出正确的响应。

    此外,GET请求的参数必须附加在URL上,并以URLEncode方式编码,例如:http://www.example.com/?a=1&b=K%26R,参数分别是a=1和b=K&R。因为URL的长度限制,GET请求的参数不能太多,而POST请求的参数就没有长度限制,因为POST请求的参数必须放到Body中。并且,POST请求的参数不一定是URL编码,可以按任意格式编码,只需要在Content-Type中正确设置即可。常见的发送JSON的POST请求如下:

    POST /login HTTP/1.1
    Content-Type: application/json
    Content-Length: 38
    
    {"username":"bob","password":"123456"}
    

    HTTP响应也是由Header和Body两部分组成,一个典型的HTTP响应如下:

    HTTP/1.1 200 OK
    Content-Type: text/html
    Content-Length: 133251
    
    <!DOCTYPE html>
    <html><body>
    <h1>Hello</h1>
    ...
    

    响应的第一行总是HTTP版本 响应代码 响应说明,例如,HTTP/1.1 200 OK表示版本是HTTP/1.1,响应代码是200,响应说明是OK。客户端只依赖响应代码判断HTTP响应是否成功。HTTP有固定的响应代码:

    • 1xx:表示一个提示性响应,例如101表示将切换协议,常见于WebSocket连接;
    • 2xx:表示一个成功的响应,例如200表示成功,206表示只发送了部分内容;
    • 3xx:表示一个重定向的响应,例如301表示永久重定向,303表示客户端应该按指定路径重新发送请求;
    • 4xx:表示一个因为客户端问题导致的错误响应,例如400表示因为Content-Type等各种原因导致的无效请求,404表示指定的路径不存在;
    • 5xx:表示一个因为服务器问题导致的错误响应,例如500表示服务器内部故障,503表示服务器暂时无法响应。

    当浏览器收到第一个HTTP响应后,它解析HTML后,又会发送一系列HTTP请求,例如,GET /logo.jpg HTTP/1.1请求一个图片,服务器响应图片请求后,会直接把二进制内容的图片发送给浏览器:

    HTTP/1.1 200 OK
    Content-Type: image/jpeg
    Content-Length: 18391
    
    ????JFIFHH??XExifMM?i&??X?...(二进制的JPEG图片)
    

    因此,服务器总是被动地接收客户端的一个HTTP请求,然后响应它。客户端则根据需要发送若干个HTTP请求。

    对于最早期的HTTP/1.0协议,每次发送一个HTTP请求,客户端都需要先创建一个新的TCP连接,然后,收到服务器响应后,关闭这个TCP连接。由于建立TCP连接就比较耗时,因此,为了提高效率,HTTP/1.1协议允许在一个TCP连接中反复发送-响应,这样就能大大提高效率.

    因为HTTP协议是一个请求-响应协议,客户端在发送了一个HTTP请求后,必须等待服务器响应后,才能发送下一个请求,这样一来,如果某个响应太慢,它就会堵住后面的请求。

    所以,为了进一步提速,HTTP/2.0允许客户端在没有收到响应的时候,发送多个HTTP请求,服务器返回响应的时候,不一定按顺序返回,只要双方能识别出哪个响应对应哪个请求,就可以做到并行发送和接收,可见,HTTP/2.0进一步提高了效率。

    HTTP编程

    既然HTTP涉及到客户端和服务器端,和TCP类似,我们也需要针对客户端编程和针对服务器端编程。

    本节我们不讨论服务器端的HTTP编程,因为服务器端的HTTP编程本质上就是编写Web服务器,这是一个非常复杂的体系,也是JavaEE开发的核心内容,我们在后面的章节再仔细研究。

    本节我们只讨论作为客户端的HTTP编程。

    因为浏览器也是一种HTTP客户端,所以,客户端的HTTP编程,它的行为本质上和浏览器是一样的,即发送一个HTTP请求,接收服务器响应后,获得响应内容。只不过浏览器进一步把响应内容解析后渲染并展示给了用户,而我们使用Java进行HTTP客户端编程仅限于获得响应内容。

    我们来看一下Java如果使用HTTP客户端编程。

    Java标准库提供了基于HTTP的包,但是要注意,早期的JDK版本是通过HttpURLConnection访问HTTP,典型代码如下:

    URL url = new URL("http://www.example.com/path/to/target?a=1&b=2");
    HttpURLConnection conn = (HttpURLConnection) url.openConnection();
    conn.setRequestMethod("GET");
    conn.setUseCaches(false);
    conn.setConnectTimeout(5000); // 请求超时5秒
    // 设置HTTP头:
    conn.setRequestProperty("Accept", "*/*");
    conn.setRequestProperty("User-Agent", "Mozilla/5.0 (compatible; MSIE 11; Windows NT 5.1)");
    // 连接并发送HTTP请求:
    conn.connect();
    // 判断HTTP响应是否200:
    if (conn.getResponseCode() != 200) {
        throw new RuntimeException("bad response");
    }		
    // 获取所有响应Header:
    Map<String, List<String>> map = conn.getHeaderFields();
    for (String key : map.keySet()) {
        System.out.println(key + ": " + map.get(key));
    }
    // 获取响应内容:
    InputStream input = conn.getInputStream();
    

    上述代码编写比较繁琐,并且需要手动处理InputStream,所以用起来很麻烦。

    从Java 11开始,引入了新的HttpClient,它使用链式调用的API,能大大简化HTTP的处理。

    我们来看一下如何使用新版的HttpClient。首先需要创建一个全局HttpClient实例,因为HttpClient内部使用线程池优化多个HTTP连接,可以复用:

    static HttpClient httpClient = HttpClient.newBuilder().build();
    

    使用GET请求获取文本内容代码如下:

    import java.net.URI;
    import java.net.http.*;
    import java.net.http.HttpClient.Version;
    import java.time.Duration;
    import java.util.*;
    
    public class Main {
        // 全局HttpClient:
        static HttpClient httpClient = HttpClient.newBuilder().build();
    
        public static void main(String[] args) throws Exception {
            String url = "https://www.sina.com.cn/";
            HttpRequest request = HttpRequest.newBuilder(new URI(url))
                // 设置Header:
                .header("User-Agent", "Java HttpClient").header("Accept", "*/*")
                // 设置超时:
                .timeout(Duration.ofSeconds(5))
                // 设置版本:
                .version(Version.HTTP_2).build();
            HttpResponse<String> response = httpClient.send(request, HttpResponse.BodyHandlers.ofString());
            // HTTP允许重复的Header,因此一个Header可对应多个Value:
            Map<String, List<String>> headers = response.headers().map();
            for (String header : headers.keySet()) {
                System.out.println(header + ": " + headers.get(header).get(0));
            }
            System.out.println(response.body().substring(0, 1024) + "...");
        }
    }
    

    如果我们要获取图片这样的二进制内容,只需要把HttpResponse.BodyHandlers.ofString()换成HttpResponse.BodyHandlers.ofByteArray(),就可以获得一个HttpResponse<byte[]>对象。如果响应的内容很大,不希望一次性全部加载到内存,可以使用HttpResponse.BodyHandlers.ofInputStream()获取一个InputStream流。

    要使用POST请求,我们要准备好发送的Body数据并正确设置Content-Type:

    String url = "http://www.example.com/login";
    String body = "username=bob&password=123456";
    HttpRequest request = HttpRequest.newBuilder(new URI(url))
        // 设置Header:
        .header("Accept", "*/*")
        .header("Content-Type", "application/x-www-form-urlencoded")
        // 设置超时:
        .timeout(Duration.ofSeconds(5))
        // 设置版本:
        .version(Version.HTTP_2)
        // 使用POST并设置Body:
        .POST(BodyPublishers.ofString(body, StandardCharsets.UTF_8)).build();
    HttpResponse<String> response = httpClient.send(request, HttpResponse.BodyHandlers.ofString());
    String s = response.body();
    

    可见发送POST数据也十分简单。

    XML与JSON

    XML简介

    XML是可扩展标记语言(eXtensible Markup Language)的缩写,它是是一种数据表示格式,可以描述非常复杂的数据结构,常用于传输和存储数据。

    例如,一个描述书籍的XML文档可能如下:

    <?xml version="1.0" encoding="UTF-8" ?>
    <!DOCTYPE note SYSTEM "book.dtd">
    <book id="1">
        <name>Java核心技术</name>
        <author>Cay S. Horstmann</author>
        <isbn lang="CN">1234567</isbn>
        <tags>
            <tag>Java</tag>
            <tag>Network</tag>
        </tags>
        <pubDate/>
    </book>
    

    XML有几个特点:一是纯文本,默认使用UTF-8编码,二是可嵌套,适合表示结构化数据。如果把XML内容存为文件,那么它就是一个XML文件,例如book.xml。此外,XML内容经常通过网络作为消息传输。

    XML的结构

    XML有固定的结构,首行必定是,可以加上可选的编码。紧接着,如果以类似声明的是文档定义类型(DTD:Document Type Definition),DTD是可选的。接下来是XML的文档内容,一个XML文档有且仅有一个根元素,根元素可以包含任意个子元素,元素可以包含属性,例如,1234567包含一个属性lang="CN",且元素必须正确嵌套。如果是空元素,可以用表示。

    由于使用了<、>以及引号等标识符,如果内容出现了特殊符号,需要使用&???;表示转义。例如,Java必须写成:

    <name>Java&lt;tm&gt;</name>
    

    常见的特殊字符如下:

    字符 表示
    < &lt;
    > &gt;
    & &amp;
    " &quot;
    ' &apos;

    格式正确的XML(Well Formed)是指XML的格式是正确的,可以被解析器正常读取。而合法的XML是指,不但XML格式正确,而且它的数据结构可以被DTD或者XSD验证。

    DTD文档可以指定一系列规则,例如:

    • 根元素必须是book
    • book元素必须包含name,author等指定元素
    • isbn元素必须包含属性lang
    • ...

    如何验证XML文件的正确性呢?最简单的方式是通过浏览器验证。可以直接把XML文件拖拽到浏览器窗口,如果格式错误,浏览器会报错。

    和结构类似的HTML不同,浏览器对HTML有一定的“容错性”,缺少关闭标签也可以被解析,但XML要求严格的格式,任何没有正确嵌套的标签都会导致错误。

    XML是一个技术体系,除了我们经常用到的XML文档本身外,XML还支持:

    • DTD和XSD:验证XML结构和数据是否有效;
    • Namespace:XML节点和属性的名字空间;
    • XSLT:把XML转化为另一种文本;
    • XPath:一种XML节点查询语言;
    • ...

    实际上,XML的这些相关技术实现起来非常复杂,在实际应用中很少用到,通常了解一下就可以了。

    使用DOM

    因为XML是一种树形结构的文档,它有两种标准的解析API:

    • DOM:一次性读取XML,并在内存中表示为树形结构;
    • SAX:以流的形式读取XML,使用事件回调。

    我们先来看如何使用DOM来读取XML。

    DOM是Document Object Model的缩写,DOM模型就是把XML结构作为一个树形结构处理,从根节点开始,每个节点都可以包含任意个子节点。

    我们以下面的XML为例:

    <?xml version="1.0" encoding="UTF-8" ?>
    <book id="1">
        <name>Java核心技术</name>
        <author>Cay S. Horstmann</author>
        <isbn lang="CN">1234567</isbn>
        <tags>
            <tag>Java</tag>
            <tag>Network</tag>
        </tags>
        <pubDate/>
    </book>
    

    如果解析为DOM结构,它大概长这样:

                          ┌─────────┐
                          │document │
                          └─────────┘
                               │
                               ▼
                          ┌─────────┐
                          │  book   │
                          └─────────┘
                               │
         ┌──────────┬──────────┼──────────┬──────────┐
         ▼          ▼          ▼          ▼          ▼
    ┌─────────┐┌─────────┐┌─────────┐┌─────────┐┌─────────┐
    │  name   ││ author  ││  isbn   ││  tags   ││ pubDate │
    └─────────┘└─────────┘└─────────┘└─────────┘└─────────┘
                                          │
                                     ┌────┴────┐
                                     ▼         ▼
                                 ┌───────┐ ┌───────┐
                                 │  tag  │ │  tag  │
                                 └───────┘ └───────┘
    

    注意到最顶层的document代表XML文档,它是真正的“根”,而<book>虽然是根元素,但它是document的一个子节点。

    Java提供了DOM API来解析XML,它使用下面的对象来表示XML的内容:

    • Document:代表整个XML文档;
    • Element:代表一个XML元素;
    • Attribute:代表一个元素的某个属性。

    使用DOM API解析一个XML文档的代码如下:

    InputStream input = Main.class.getResourceAsStream("/book.xml");
    DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
    DocumentBuilder db = dbf.newDocumentBuilder();
    Document doc = db.parse(input);
    

    DocumentBuilder.parse()用于解析一个XML,它可以接收InputStream,File或者URL,如果解析无误,我们将获得一个Document对象,这个对象代表了整个XML文档的树形结构,需要遍历以便读取指定元素的值:

    void printNode(Node n, int indent) {
        for (int i = 0; i < indent; i++) {
            System.out.print(' ');
        }
        switch (n.getNodeType()) {
        case Node.DOCUMENT_NODE: // Document节点
            System.out.println("Document: " + n.getNodeName());
            break;
        case Node.ELEMENT_NODE: // 元素节点
            System.out.println("Element: " + n.getNodeName());
            break;
        case Node.TEXT_NODE: // 文本
            System.out.println("Text: " + n.getNodeName() + " = " + n.getNodeValue());
            break;
        case Node.ATTRIBUTE_NODE: // 属性
            System.out.println("Attr: " + n.getNodeName() + " = " + n.getNodeValue());
            break;
        default: // 其他
            System.out.println("NodeType: " + n.getNodeType() + ", NodeName: " + n.getNodeName());
        }
        for (Node child = n.getFirstChild(); child != null; child = child.getNextSibling()) {
            printNode(child, indent + 1);
        }
    }
    

    解析结构如下:

    Document: #document
     Element: book
      Text: #text = 
        
      Element: name
       Text: #text = Java核心技术
      Text: #text = 
        
      Element: author
       Text: #text = Cay S. Horstmann
      Text: #text = 
      ...
    

    对于DOM API解析出来的结构,我们从根节点Document出发,可以遍历所有子节点,获取所有元素、属性、文本数据,还可以包括注释,这些节点被统称为Node,每个Node都有自己的Type,根据Type来区分一个Node到底是元素,还是属性,还是文本,等等。

    使用DOM API时,如果要读取某个元素的文本,需要访问它的Text类型的子节点,所以使用起来还是比较繁琐的。

    使用SAX

    使用DOM解析XML的优点是用起来省事,但它的主要缺点是内存占用太大。

    另一种解析XML的方式是SAX。SAX是Simple API for XML的缩写,它是一种基于流的解析方式,边读取XML边解析,并以事件回调的方式让调用者获取数据。因为是一边读一边解析,所以无论XML有多大,占用的内存都很小。

    SAX解析会触发一系列事件:

    • startDocument:开始读取XML文档;
    • startElement:读取到了一个元素,例如
    • characters:读取到了字符;
    • endElement:读取到了一个结束的元素,例如;
    • endDocument:读取XML文档结束。

    如果我们用SAX API解析XML,Java代码如下:

    InputStream input = Main.class.getResourceAsStream("/book.xml");
    SAXParserFactory spf = SAXParserFactory.newInstance();
    SAXParser saxParser = spf.newSAXParser();
    saxParser.parse(input, new MyHandler());
    

    关键代码SAXParser.parse()除了需要传入一个InputStream外,还需要传入一个回调对象,这个对象要继承自DefaultHandler:

    class MyHandler extends DefaultHandler {
        public void startDocument() throws SAXException {
            print("start document");
        }
    
        public void endDocument() throws SAXException {
            print("end document");
        }
    
        public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
            print("start element:", localName, qName);
        }
    
        public void endElement(String uri, String localName, String qName) throws SAXException {
            print("end element:", localName, qName);
        }
    
        public void characters(char[] ch, int start, int length) throws SAXException {
            print("characters:", new String(ch, start, length));
        }
    
        public void error(SAXParseException e) throws SAXException {
            print("error:", e);
        }
    
        void print(Object... objs) {
            for (Object obj : objs) {
                System.out.print(obj);
                System.out.print(" ");
            }
            System.out.println();
        }
    }
    

    运行SAX解析代码,可以打印出下面的结果:

    start document
    start element:  book
    characters:
         
    start element:  name
    characters: Java核心技术
    end element:  name
    characters:
         
    start element:  author
    ...
    

    如果要读取节点的文本,我们就必须在解析过程中根据startElement()和endElement()定位当前正在读取的节点,可以使用栈结构保存,每遇到一个startElement()入栈,每遇到一个endElement()出栈,这样,读到characters()时我们才知道当前读取的文本是哪个节点的。可见,使用SAX API仍然比较麻烦。

    使用Jackson

    前面我们介绍了DOM和SAX两种解析XML的标准接口。但是,无论是DOM还是SAX,使用起来都不直观。

    观察XML文档的结构:

    <?xml version="1.0" encoding="UTF-8" ?>
    <book id="1">
        <name>Java核心技术</name>
        <author>Cay S. Horstmann</author>
        <isbn lang="CN">1234567</isbn>
        <tags>
            <tag>Java</tag>
            <tag>Network</tag>
        </tags>
        <pubDate/>
    </book>
    

    我们发现,它完全可以对应到一个定义好的JavaBean中:

    public class Book {
        public long id;
        public String name;
        public String author;
        public String isbn;
        public List<String> tags;
        public String pubDate;
    }
    

    如果能直接从XML文档解析成一个JavaBean,那比DOM或者SAX不知道容易到哪里去了。

    幸运的是,一个名叫Jackson的开源的第三方库可以轻松做到XML到JavaBean的转换。我们要使用Jackson,先添加两个Maven的依赖:

    <dependency>
        <groupId>com.fasterxml.jackson.dataformat</groupId>
        <artifactId>jackson-dataformat-xml</artifactId>
        <version>2.10.1</version>
    </dependency>
    <dependency>
        <groupId>org.codehaus.woodstox</groupId>
        <artifactId>woodstox-core-asl</artifactId>
        <version>4.4.1</version>
    </dependency>
    

    然后,定义好JavaBean,就可以用下面几行代码解析:

    InputStream input = Main.class.getResourceAsStream("/book.xml");
    JacksonXmlModule module = new JacksonXmlModule();
    XmlMapper mapper = new XmlMapper(module);
    Book book = mapper.readValue(input, Book.class);
    System.out.println(book.id);
    System.out.println(book.name);
    System.out.println(book.author);
    System.out.println(book.isbn);
    System.out.println(book.tags);
    System.out.println(book.pubDate);
    

    注意到XmlMapper就是我们需要创建的核心对象,可以用readValue(InputStream, Class)直接读取XML并返回一个JavaBean。运行上述代码,就可以直接从Book对象中拿到数据:

    1
    Java核心技术
    Cay S. Horstmann
    1234567
    [Java, Network]
    null
    

    如果要解析的数据格式不是Jackson内置的标准格式,那么需要编写一点额外的扩展来告诉Jackson如何自定义解析。这里我们不做深入讨论,可以参考Jackson的官方文档。

    使用JSON

    前面我们讨论了XML这种数据格式。XML的特点是功能全面,但标签繁琐,格式复杂。在Web上使用XML现在越来越少,取而代之的是JSON这种数据结构。

    JSON是JavaScript Object Notation的缩写,它去除了所有JavaScript执行代码,只保留JavaScript的对象格式。一个典型的JSON如下:

    {
        "id": 1,
        "name": "Java核心技术",
        "author": {
            "firstName": "Abc",
            "lastName": "Xyz"
        },
        "isbn": "1234567",
        "tags": ["Java", "Network"]
    }
    

    JSON作为数据传输的格式,有几个显著的优点:

    • JSON只允许使用UTF-8编码,不存在编码问题;
    • JSON只允许使用双引号作为key,特殊字符用转义,格式简单;
    • 浏览器内置JSON支持,如果把数据用JSON发送给浏览器,可以用JavaScript直接处理。

    因此,JSON适合表示层次结构,因为它格式简单,仅支持以下几种数据类型:

    • 键值对:{"key": value}
    • 数组:[1, 2, 3]
    • 字符串:"abc"
    • 数值(整数和浮点数):12.34
    • 布尔值:true或false
    • 空值:null

    浏览器直接支持使用JavaScript对JSON进行读写:

    // JSON string to JavaScript object:
    jsObj = JSON.parse(jsonStr);
    
    // JavaScript object to JSON string:
    jsonStr = JSON.stringify(jsObj);
    

    所以,开发Web应用的时候,使用JSON作为数据传输,在浏览器端非常方便。因为JSON天生适合JavaScript处理,所以,绝大多数REST API都选择JSON作为数据传输格式。

    现在问题来了:使用Java如何对JSON进行读写?

    在Java中,针对JSON也有标准的JSR 353 API,但是我们在前面讲XML的时候发现,如果能直接在XML和JavaBean之间互相转换是最好的。类似的,如果能直接在JSON和JavaBean之间转换,那么用起来就简单多了。

    常用的用于解析JSON的第三方库有:

    • Jackson
    • Gson
    • Fastjson
    • ...

    注意到上一节提到的那个可以解析XML的浓眉大眼的Jackson也可以解析JSON!因此我们只需要引入以下Maven依赖:

    <dependency>
        <groupId>com.fasterxml.jackson.core</groupId>
        <artifactId>jackson-databind</artifactId>
        <version>2.10.0</version>
    </dependency>
    

    就可以使用下面的代码解析一个JSON文件:

    InputStream input = Main.class.getResourceAsStream("/book.json");
    ObjectMapper mapper = new ObjectMapper();
    // 反序列化时忽略不存在的JavaBean属性:
    mapper.configure(DeserializationFeature.FAIL_ON_UNKNOWN_PROPERTIES, false);
    Book book = mapper.readValue(input, Book.class);
    

    核心代码是创建一个ObjectMapper对象。关闭DeserializationFeature.FAIL_ON_UNKNOWN_PROPERTIES功能使得解析时如果JavaBean不存在该属性时解析不会报错。

    把JSON解析为JavaBean的过程称为反序列化。如果把JavaBean变为JSON,那就是序列化。要实现JavaBean到JSON的序列化,只需要一行代码:

    String json = mapper.writeValueAsString(book);
    

    要把JSON的某些值解析为特定的Java对象,例如LocalDate,也是完全可以的。例如:

    {
        "name": "Java核心技术",
        "pubDate": "2016-09-01"
    }
    

    要解析为:

    public class Book {
        public String name;
        public LocalDate pubDate;
    }
    

    只需要引入标准的JSR 310关于JavaTime的数据格式定义:

    <dependency>
        <groupId>com.fasterxml.jackson.datatype</groupId>
        <artifactId>jackson-datatype-jsr310</artifactId>
        <version>2.10.0</version>
    </dependency>
    

    然后,在创建ObjectMapper时,注册一个新的JavaTimeModule:

    ObjectMapper mapper = new ObjectMapper().registerModule(new JavaTimeModule());
    

    有些时候,内置的解析规则和扩展的解析规则如果都不满足我们的需求,还可以自定义解析。

    举个例子,假设Book类的isbn是一个BigInteger:

    public class Book {
    	public String name;
    	public BigInteger isbn;
    }
    

    但JSON数据并不是标准的整形格式:

    {
        "name": "Java核心技术",
        "isbn": "978-7-111-54742-6"
    }
    

    直接解析,肯定报错。这时,我们需要自定义一个IsbnDeserializer,用于解析含有非数字的字符串:

    public class IsbnDeserializer extends JsonDeserializer<BigInteger> {
        public BigInteger deserialize(JsonParser p, DeserializationContext ctxt) throws IOException, JsonProcessingException {
            // 读取原始的JSON字符串内容:
            String s = p.getValueAsString();
            if (s != null) {
                try {
                    return new BigInteger(s.replace("-", ""));
                } catch (NumberFormatException e) {
                    throw new JsonParseException(p, s, e);
                }
            }
            return null;
        }
    }
    

    然后,在Book类中使用注解标注:

    public class Book {
        public String name;
        // 表示反序列化isbn时使用自定义的IsbnDeserializer:
        @JsonDeserialize(using = IsbnDeserializer.class)
        public BigInteger isbn;
    }
    

    类似的,自定义序列化时我们需要自定义一个IsbnSerializer,然后在Book类中标注@JsonSerialize(using = ...)即可。

    JDBC编程

    程序运行的时候,往往需要存取数据。现代应用程序最基本,也是使用最广泛的数据存储就是关系数据库。

    Java为关系数据库定义了一套标准的访问接口:JDBC(Java Database Connectivity),本章我们介绍如何在Java程序中使用JDBC。

    TODO.

    函数式编程

    Java不支持单独定义函数,但可以把静态方法视为独立的函数,把实例方法视为自带this参数的函数。

    函数式编程的一个特点就是,允许把函数本身作为参数传入另一个函数,还允许返回一个函数!

    函数式编程最早是数学家阿隆佐·邱奇研究的一套函数变换逻辑,又称Lambda Calculus(λ-Calculus),所以也经常把函数式编程称为Lambda计算。

    函数式编程(Functional Programming)是把函数作为基本运算单元,函数可以作为变量,可以接收函数,还可以返回函数。历史上研究函数式编程的理论是Lambda演算,所以我们经常把支持函数式编程的编码风格称为Lambda表达式。

    Java平台从Java 8开始,支持函数式编程。

    Lambda表达式

    import java.util.Arrays;
    
    public class Main {
        public static void main(String[] args) {
            String[] array = new String[] { "Apple", "Orange", "Banana", "Lemon" };
            Arrays.sort(array, (s1, s2) -> {
                return s1.compareTo(s2);
            });
            System.out.println(String.join(", ", array));
        }
    }
    

    设计模式

    TODO.

    Web开发

    什么是JavaEE?JavaEE是Java Platform Enterprise Edition的缩写,即Java企业平台。

    Web基础

    今天我们访问网站,使用App时,都是基于Web这种Browser/Server模式,简称BS架构,它的特点是,客户端只需要浏览器,应用程序的逻辑和数据都存储在服务器端。浏览器只需要请求服务器,获取Web页面,并把Web页面展示给用户即可。

    Web页面具有极强的交互性。由于Web页面是用HTML编写的,而HTML具备超强的表现力,并且,服务器端升级后,客户端无需任何部署就可以使用到新的版本,因此,BS架构升级非常容易。

    HTTP协议

    在Web应用中,浏览器请求一个URL,服务器就把生成的HTML网页发送给浏览器,而浏览器和服务器之间的传输协议是HTTP,所以:

    • HTML是一种用来定义网页的文本,会HTML,就可以编写网页;
    • HTTP是在网络上传输HTML的协议,用于浏览器和服务器的通信。

    HTTP协议是一个基于TCP协议之上的请求-响应协议,它非常简单,我们先使用Chrome浏览器查看新浪首页,然后选择View - Developer - Inspect Elements就可以看到HTML,切换到Network,重新加载页面,可以看到浏览器发出的每一个请求和响应.

    对于Browser来说,请求页面的流程如下:

    • 与服务器建立TCP连接;
    • 发送HTTP请求;
    • 收取HTTP响应,然后把网页在浏览器中显示出来。

    浏览器发送的HTTP请求如下:

    GET / HTTP/1.1
    Host: www.sina.com.cn
    User-Agent: Mozilla/5.0 xxx
    Accept: */*
    Accept-Language: zh-CN,zh;q=0.9,en-US;q=0.8
    

    其中,第一行表示使用GET请求获取路径为/的资源,并使用HTTP/1.1协议,从第二行开始,每行都是以Header: Value形式表示的HTTP头,比较常用的HTTP Header包括:

    • Host: 表示请求的主机名,因为一个服务器上可能运行着多个网站,因此,Host表示浏览器正在请求的域名;
    • User-Agent: 标识客户端本身,例如Chrome浏览器的标识类似Mozilla/5.0 ... Chrome/79,IE浏览器的标识类似Mozilla/5.0 (Windows NT ...) like Gecko;
    • Accept:表示浏览器能接收的资源类型,如text/,image/或者/表示所有;
    • Accept-Language:表示浏览器偏好的语言,服务器可以据此返回不同语言的网页;
    • Accept-Encoding:表示浏览器可以支持的压缩类型,例如gzip, deflate, br。

    服务器的响应如下:

    HTTP/1.1 200 OK
    Content-Type: text/html
    Content-Length: 21932
    Content-Encoding: gzip
    Cache-Control: max-age=300
    
    <html>...网页数据...
    

    服务器响应的第一行总是版本号+空格+数字+空格+文本,数字表示响应代码,其中2xx表示成功,3xx表示重定向,4xx表示客户端引发的错误,5xx表示服务器端引发的错误。数字是给程序识别,文本则是给开发者调试使用的。常见的响应代码有:

    • 200 OK:表示成功;
    • 301 Moved Permanently:表示该URL已经永久重定向;
    • 302 Found:表示该URL需要临时重定向;
    • 304 Not Modified:表示该资源没有修改,客户端可以使用本地缓存的版本;
    • 400 Bad Request:表示客户端发送了一个错误的请求,例如参数无效;
    • 401 Unauthorized:表示客户端因为身份未验证而不允许访问该URL;
    • 403 Forbidden:表示服务器因为权限问题拒绝了客户端的请求;
    • 404 Not Found:表示客户端请求了一个不存在的资源;
    • 500 Internal Server Error:表示服务器处理时内部出错,例如因为无法连接数据库;
    • 503 Service Unavailable:表示服务器此刻暂时无法处理请求。

    从第二行开始,服务器每一行均返回一个HTTP头。服务器经常返回的HTTP Header包括:

    • Content-Type:表示该响应内容的类型,例如text/html,image/jpeg;
    • Content-Length:表示该响应内容的长度(字节数);
    • Content-Encoding:表示该响应压缩算法,例如gzip;
    • Cache-Control:指示客户端应如何缓存,例如max-age=300表示可以最多缓存300秒。

    HTTP请求和响应都由HTTP Header和HTTP Body构成,其中HTTP Header每行都以 结束。如果遇到两个连续的 ,那么后面就是HTTP Body。浏览器读取HTTP Body,并根据Header信息中指示的Content-Type、Content-Encoding等解压后显示网页、图像或其他内容。

    通常浏览器获取的第一个资源是HTML网页,在网页中,如果嵌入了JavaScript、CSS、图片、视频等其他资源,浏览器会根据资源的URL再次向服务器请求对应的资源。

    关于HTTP协议的详细内容,请参考HTTP权威指南一书,或者Mozilla开发者网站。

    我们在前面介绍的HTTP编程是以客户端的身份去请求服务器资源。现在,我们需要以服务器的身份响应客户端请求,编写服务器程序来处理客户端请求通常就称之为Web开发。

    编写HTTP Server

    我们来看一下如何编写HTTP Server。一个HTTP Server本质上是一个TCP服务器,我们先用TCP编程的多线程实现的服务器端框架:
    Server

    import java.io.*;
    import java.net.ServerSocket;
    import java.net.Socket;
    
    public class Server {
        public static void main(String[] args) throws IOException {
            ServerSocket ss = new ServerSocket(8080); // 监听指定端口
            System.out.println("server is running...");
            for (;;) {
                Socket sock = ss.accept();
                System.out.println("connected from " + sock.getRemoteSocketAddress());
                Thread t = new Handler(sock);
                t.start();
            }
        }
    }
    
    class Handler extends Thread {
        Socket sock;
    
        public Handler(Socket sock) {
            this.sock = sock;
        }
    
        public void run() {
            try (InputStream input = this.sock.getInputStream()) {
                try (OutputStream output = this.sock.getOutputStream()) {
                    handle(input, output);
                }
            } catch (Exception e) {
                try {
                    this.sock.close();
                } catch (IOException ioe) {
                }
                System.out.println("client disconnected.");
            }
        }
    
        private void handle(InputStream input, OutputStream output) throws IOException {
            BufferedReader reader = new BufferedReader(new InputStreamReader(input, "utf-8"));
            BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(output, "utf-8"));
            // TODO: 处理HTTP请求
        }
    }
    

    只需要在handle()方法中,用Reader读取HTTP请求,用Writer发送HTTP响应,即可实现一个最简单的HTTP服务器。编写代码如下:

        private void handle(InputStream input, OutputStream output) throws IOException {
            System.out.println("Process new http request...");
            BufferedReader reader = new BufferedReader(new InputStreamReader(input, "utf-8"));
            BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(output, "utf-8"));
            // 读取HTTP请求:
            boolean requestOk = false;
            String first = reader.readLine();
            if (first.startsWith("GET / HTTP/1.")) {
                requestOk = true;
            }
            for (;;) {
                String header = reader.readLine();
                if (header.isEmpty()) { // 读取到空行时, HTTP Header读取完毕
                    break;
                }
                System.out.println(header);
            }
            System.out.println(requestOk ? "Response OK" : "Response Error");
            if (!requestOk) {
                // 发送错误响应:
                writer.write("404 Not Found
    ");
                writer.write("Content-Length: 0
    ");
                writer.write("
    ");
                writer.flush();
            } else {
                // 发送成功响应:
                String data = "<html><body><h1>Hello, world!</h1></body></html>";
                int length = data.getBytes("utf-8").length;
                writer.write("HTTP/1.0 200 OK
    ");
                writer.write("Connection: close
    ");
                writer.write("Content-Type: text/html
    ");
                writer.write("Content-Length: " + length + "
    ");
                writer.write("
    "); // 空行标识Header和Body的分隔
                writer.write(data);
                writer.flush();
            }
        }
    

    这里的核心代码是,先读取HTTP请求,这里我们只处理GET /的请求。当读取到空行时,表示已读到连续两个 ,说明请求结束,可以发送响应。发送响应的时候,首先发送响应代码HTTP/1.0 200 OK表示一个成功的200响应,使用HTTP/1.0协议,然后,依次发送Header,发送完Header后,再发送一个空行标识Header结束,紧接着发送HTTP Body,在浏览器输入http://local.liaoxuefeng.com:8080/就可以看到响应页面.

    HTTP目前有多个版本,1.0是早期版本,浏览器每次建立TCP连接后,只发送一个HTTP请求并接收一个HTTP响应,然后就关闭TCP连接。由于创建TCP连接本身就需要消耗一定的时间,因此,HTTP 1.1允许浏览器和服务器在同一个TCP连接上反复发送、接收多个HTTP请求和响应,这样就大大提高了传输效率。

    我们注意到HTTP协议是一个请求-响应协议,它总是发送一个请求,然后接收一个响应。能不能一次性发送多个请求,然后再接收多个响应呢?HTTP 2.0可以支持浏览器同时发出多个请求,但每个请求需要唯一标识,服务器可以不按请求的顺序返回多个响应,由浏览器自己把收到的响应和请求对应起来。可见,HTTP 2.0进一步提高了传输效率,因为浏览器发出一个请求后,不必等待响应,就可以继续发下一个请求。

    HTTP 3.0为了进一步提高速度,将抛弃TCP协议,改为使用无需创建连接的UDP协议,目前HTTP 3.0仍然处于实验阶段。

    参考链接:
    https://www.liaoxuefeng.com/wiki/1252599548343744/1255876875896416

  • 相关阅读:
    ASCII、GBK、Unicode、UTF-8、ISO-8859-1等常见字符编码介绍
    HTTP协议简介
    关于无知的一点思考
    Java 8 新特性之lambda表达式
    Java 8 新特性之新的日期时间库
    【java】<Jsoup>获取网页中的图片
    【数据结构】二叉树
    【转载】Android中UI线程与后台线程交互设计的5种方法
    【数据结构】广义表
    【c语言】数据结构(约瑟夫生者死者游戏的问题)
  • 原文地址:https://www.cnblogs.com/chendeqiang/p/12861609.html
Copyright © 2011-2022 走看看