zoukankan      html  css  js  c++  java
  • Class文件结构

    Java之所以能实现“Write Once, Run Anywhere”,是因为不同平台的虚拟机都统一使用一种程序存储格式——字节码。Java虚拟机不和包括Java在内的任何语言绑定,它只于“Class”文件这种特定的二进制文件格式所关联。

    Class文件是一组以8位字节为基础单位的二进制流,各个数据项目严格按照顺序紧凑排列在Class文件中,中间无任何分隔符。

    明确两个概念:无符号数和表

    无符号数属于基本的数据类型,以u1、u2、u4来分别代表1个字节、2个字节和4个字节的无符号数。

    表是由多个无符号数或者其他表作为数据项构成的复合数据结构,整个Class文件本质上就是一张表。

    Class文件格式
    类型 名称 数量 描述
    u4 magic 1 魔数
    u2 minor_version 1 次版本号
    u2 major_version  1 主版本号
    u2 constant_pool_count 1 常量池容量
    cp_info constant_pool costant_pool_count-1 常量池
    u2 access_flags 1 访问标志
    u2 this_class 1 当前类常量索引
    u2 super_class 1 超类常量索引
    u2 interfaces_count 1 接口数量
    u2 interfaces interfaces_count 接口常量索引
    u2 fields_count 1 字段数量
    field_info fields fields_count 字段信息
    u2 methods_count 1 方法数量
    method_info methods methods_count 方法信息
    u2 attributes_count 1 属性数量
    attribute_info attributes attributes_count 属性信息

    解释Class文件格式之前,先编写一个简单的java类

    1 package com.yyl.Test;
    2 public class Test{
    3     private int i = 2;
    4     
    5     public int getResult(){
    6         return i + 2;
    7     }
    8 }

    编译成class文件后,用winhex软件打开class字节码

    使用javap命令帮助分析

    1、魔数(magic)

    每个Class文件头4个字节称为魔数,它的唯一作用是确定这个文件能否为一个能为虚拟机接收的Class文件,基于安全考虑,使用魔数而不是扩展名来进行身份识别。从16进制字节码中看出前4个字节为CAFEBABE(咖啡宝贝?)。

    2、次/主版本号(minor_version/major_version)

    紧接着魔数的4个字节分别是次版本号和主版本号,java的版本号是从45开始,高版本的JDK能向下兼容以前版本的Class文件,虚拟机拒绝执行超过其版本号的Class文件。从16进制字节码中看出次版本号0x0000,主版本号0x0032。

    3、常量池容量、常量池(constant_pool_count、constant_pool)

    常量池主要存放两大类常量:

    a.字面值:接近java语言层面的常量概念,如文本字符串、final常量值等。

    b.符号引用:类和接口的全限定名、字段的名称和描述符、方法的名称和描述符。

    由于常量池中常量的数量是不固定的,所以在常量池入口需要设置一项u2类型数据,代表常量池容量计数值。其计数不是从0开始,而是从1开始。

    如图,常量池容量值为0x0013,即十进制19,因此容量为19-1=18个。查看javap命令输出的常量表中也可以看出Constant pool总共有18个常量。

    设计者把第0项空出来目的在于在特定情况下需要表达“不引用任何一个常量池项目”的含义。

    常量池项目结构第一项均为u1类型的tag,该标志代表常量池项目的类型,而其他结构各异。

    下面只列出部分结构:

    常量池中常量项结构
    常量 项目 类型 描述
    CONSTANT_Utf8_info tag u1 值为1
    length u2 占用字节数
    bytes u1 长度为length的UTF-8编码的字符串
    CONSTANT_Integer_info tag u1 值为3
    bytes u4 按照高位在前存储的int值
    CONSTANT_Class_info teg u1 值为7
    index u2 指向全限定名常量项的索引
    CONSTANT_String_info  tag u1 值为8
    index u2 指向字符串字面值的索引
    CONSTANT_Fieldref_info tag u1 值为9
    index u2 指向声明字段的类或接口描述符CONSTANT_Class_info的索引项
    index u2 指向字段描述符CONSTANT_NameAndType的索引项
    CONSTANT_Methodref_info tag u1 值为10
    index u2 指向声明方法的类描述符CONSTANT_Class_info的索引项
    index u2 指向方法描述符CONSTANT_NameAndType_info的索引项
    CONSTANT_NameAndType_info tag u1 值为12
    index u2 指向该字段或方法名称常量项的索引
    index u2 指向该字段或方法描述符常量项的索引

    接着分析字节码:

    如图可以看出第一个常量项tag为0x0A,即十进制10,类型为CONSTANT_Methodref_info,接着的u2类型0x0004指向类的索引,即指向java/lang/Object类,后面的0x000F指向方法描述符,即指向方法名为<init>返回值为()V的描述符。所以整个常量项就表示如图中的“结果”。

    其他常量项类似上面方法,就不一一阐述。

    另外,由于Class文件中方法、字段等都需要引用CONSTAN_Utf8_info型常量来描述名称,所以该类型最大长度也就是java中方法、字段名的最大长度(u2类型表达的最大值为65535),所以如果定义了超过64KB英文字符的变量或方法名,将无法编译。

    4、访问标志(access_flags)

    常量池结束后,紧接着的两个字节表示访问标志,用于识别类或接口层次的访问信息,包括这个Class是类还是接口,是否定义为public类型、abstract类型等等。

    访问标志
    标志名称 标志值 含义
    ACC_PUBLIC 0x0001 是否为public类型
    ACC_FINAL 0x0010 是否被声明为final,只有类可设置
    ACC_SUPER 0x0020 是否允许使用invokespecial字节码指令的新语义,JDK1.0.2之后编译出来的类这个标志必须为真
    ACC_INTERFACE 0x0200 标识这是一个接口
    ACC_ABSTRACT 0x0400 是否为abstract类型,对于接口或抽象类来说此值为真,其他类值为假
    ACC_SYNTHETIC 0x1000 标识这个类并非由用户代码产生的
    ACC_ANNOTATION 0x2000 标识这个一个注解
    ACC_ENUM 0x4000 标识这是一个枚举

    Test类被public关键字修饰,因此它的ACC_PUBLIC、ACC_SUPER标志应当为真,因此其access_flags值应为0x0001|0x0020=0x0021。

    5、类索引、父类索引与接口索引集合(this_class、super_class、interfaces)

    类索引和父类索引都是一个u2类型的数据,接口索引集合是一组u2类型的数据的集合。它们各自指向一个类型为CONSTANT_Class_info的类描述符常量。

     

    6、字段表集合(field_info)

    字段表用于描述接口或类中声明的变量,字段包括类级变量以及实例级变量,但不包括在方法内部声明的局部变量。

    字段表结构
    类型 名称 数量
    u2 access_flags 1
    u2 name_index 1
    u2 descriptor_index 1
    u2 attributes_count 1
    attribute_info attributes attributes_count

    字段修饰符放在access_flags项目中,如下表

    字段访问标志
    标志名称 标志值 含义
    ACC_PUBLIC 0x0001 字段是否为public类型
    ACC_PRIVATE 0x0002 字段是否为private
    ACC_PROTECTED 0x0004 字段是否为protected
    ACC_STATIC 0x0008 字段是否为static
    ACC_FINAL 0x0010 字段是否为final
    ACC_VOLATILE 0x0040 字段是否为volatile
    ACC_TRANSIENT 0x0080 字段是否transient
    ACC_SYNTHETIC 0x1000 字段是否由编译器自动产生
    ACC_ENUM 0x4000 字段是否为enum

    跟随access_flags的标志是两项索引值:name_index和descriptor_index,他们都是对常量池的引用,分别代表字段的简单名称以及字段和方法的描述符。

    区分三个概念:全限定名、简单名称、描述符

    a.全限定名,如java/lang/Object,仅仅将类全名中的“.”替换成“/”。

    b.简单名称是指没有类型和参数修饰的方法或者字段名称,如类中getResult()方法和i字段的简单名称分别为“getResult”和“i”。

    c.描述符是用来描述字段的数据类型、方法的参数列表(包括数量、类型以及顺序)和返回值。

    描述符标识字符含义
    标识字符 含义 标识字符 含义
    B 基本类型byte J 基本类型long
    C 基本类型char S 基本类型short
    D 基本类型double Z 基本类型boolean
    F 基本类型float V 特殊类型void
    I 基本类型int             L 对象类型,如Ljava/lang/Object

    对于数组类型,每一唯独使用一个前置的“[”字符描述,如一个定义为“java.lang.String[][]”类型的二维数组,将被记录为“[[Ljava/lang/String”。

    当描述符描述方法时,按照先参数列表后返回值的顺序描述,参数列表按照参数的严格顺序放在一组小括号“()”之内。如int getResult()方法的描述符为“()I”。

    字段表最后的属性表结构可用于存储一些额外的信息。

    7、方法表集合(method_info)

    方法表的结构跟字段表结构一样,依次包括access_flags、name_index、descriptor_index、attributes,而访问标志则有所区别。

    方法访问标志
    标志名称 标志值 含义
    ACC_PUBLIC 0x0001 方法是否为public类型
    ACC_PRIVATE 0x0002 方法是否为private
    ACC_PROTECTED 0x0004 方法是否为protected
    ACC_STATIC 0x0008 方法是否为static
    ACC_FINAL 0x0010 方法是否为final
    ACC_SYNCHRONIZED 0x0020 方法是否为synchronized
    ACC_BRIDGE 0x0040 方法是否由编译器产生的桥接方法
    ACC_VARARGS 0x0080 方法是否接收不定参数
    ACC_NATIVE 0x0100 方法是否为native
    ACC_ABSTRACT 0x0400 方法是否为abstract
    ACC_STRICTFP 0x0800 方法是否为strictfp
    ACC_SYNTHETIC 0x1000 字段是否由编译器自动产生

    方法定义可以由访问标志、名称索引、描述符表达清楚,而方法里面的代码经过编译器编译成字节码指令后,存放在方法属性表集合中一个名为“Code”的属性里面。

    8、属性表集合(attribute_info)

    在Class文件、字段表、方法表都可以携带自己的属性表集合,以用于描述某些场景专有的信息。

    下文只介绍了其中一些属性:

    Code属性表结构
    类型 名称 数量 描述
    u2 attribute_name_index 1 常量值固定为Code,代表该属性名称
    u4 attribute_length 1 属性值长度
    u2 max_stack 1 操作数栈深度的最大值
    u2 max_locals 1 局部变量表所需的存储空间
    u4 code_length 1 字节码长度
    u1 code code_length 存储字节码指令的一系列字节流
    u2 exception_table_length 1 异常处理表长度
    exception_info exception_table exception_table_length 异常属性表
    u2 attributes_count 1 属性集合中属性个数
    attribute_info attributes attributes_count 属性信息

    其中max_locals代表局部变量的存储空间,单位为Slot(虚拟机为局部变量分配内存所使用的最小单位)。对于byte、char、float、int、short等长度不超过32位的数据类型,每个局部变量占用1个Slot,而double和long这两种64位的数据类型则需要两个Slot来存放。方法参数,包括实例方法中的隐藏参数“this”、显式异常处理器的参数、方法体中定义的局部变量都需要使用局部变量表来存放。max_locals并不是简单将所有局部变量所占Slot之和作为其值,java编译器会根据变量的作用域来分配Slot给各个变量使用,然后计算max_locals的大小。

    字节码中每个u1类型的单字节代表一个指令。意义请自行查找虚拟机字节码指令表。

    异常表结构
    类型 名称 数量 类型 名称 数量
    u2 start_pc 1 u2 handler_pc 1
    u2 end_pc 1 u2 catch_type 1

    这些字段的含义为:如果当字节码在第start_pc行(相对于方法体开始的偏移量)到第end_pc行(不包括)之间出现类型为catch_type或其子类的异常,则转到handler_pc行继续处理。当catch_type为0时,代表任意异常情况都需要转向handler_pc行处处理。

    LineNumberTable属性结构
    类型 名称 数量
    u2 attribute_name_index 1
    u4 attribute_length 1
    u2 line_number_table_length 1
    line_number_info line_number_table line_number_table_length

    该属性用于描述java源码行号与字节码行号(偏移量)之间的对应关系,line_number_table是一个数量为line_number_table_length、类型为line_number_info的集合,line_number_info表包括start_pc和line_number两个u2类型的数据项,前者是字节码行号,后者是java源码行号。

    后面是另一个方法的字节码,就不再赘述。

  • 相关阅读:
    ant中build.xml文件解释
    mysql练习题
    Mysql基本知识
    Python Socket 简单聊天室2
    Python Socket 简单聊天室1
    Python 导入模块
    Python 文件的处理
    Python yield
    Python 内置函数
    Python 生成验证码
  • 原文地址:https://www.cnblogs.com/honghuzidelaoren/p/3622021.html
Copyright © 2011-2022 走看看