JVM（三）内存回收（一）

zoukankan html css js c++ java

JVM（三）内存回收（一）
最近花了相当长一段时间在看Hotspot JVM的GC和内存分配，本节先总结和回顾一下内存回收的相关知识点，内存的分配放到下节再讨论。

一、什么是JVM的GC

GC即Garbage Collection，大家都知道，写Java程序的时候，不需要像在C、C++中一样，显示的都调用delete去回收不再需要的对象的内存空间。其实现方式是在对象的析构函数中，将new出来的指针、数组等显示的delete（delete[] 数组）掉，从而到达目的。但是，Java中，只管new，不需要delete，而且也不允许你delete。那内存回收的哪些事都被谁管了呢？那就是GC Collector（垃圾回收器）。它会负责在JVM运行时，动态的分配和回收对象的内存。那么，究竟该怎么做呢？那垃圾回收器的设计是基于以下三个问题和二个假设进行的：

三个问题：

1. 哪些内存需要回收？

2. 什么时候回收？

3. 如何回收？

二个假设：

1. 假设大部分对象在很短的时间内会变得不可达；

2. 只存在少部分的老对象引用会转变为年轻对象的引用（Reference from old objects to yount objects only exist in small numbers）。

下面我就先说下自己对这两个假设的理解：

假设1，“假设大部分对象在很短的时间内会变得不可达” 这句话通俗点说就是，JVM中很多new出来的Object，大部分只会在短时间被引用，之后就不会再被使用了。比如，你在某个方法里面new了一个HashMap的对象，而这个对象除了在这个方法中使用之外，不会在其他任何地方使用，那么等这个方法调用完毕之后，这对象的内存就变成了假设1中所说的不可达了，而这种情况在实际的使用中是比较多，所以有此假设。如下：
public void method1(){ ..... Map<String,String> map = new HashMap<>(); // 在method1调用完毕之后，map引用所指的对象将变得不可达。 ..... }
假设2，“只存在少部分的老对象引用会转变为年轻对象的引用”，通俗点解释下年老对象和年轻对象，这个和现实生活中的老年人和年轻人类比，也有一个分割线（一般Hotspot中用这个参数来指定MaxTenuringThreshold），当某个对象的年龄大于这个值时，就是老对象，否则是年轻对象（这个只是狭义的理解，具体可以自行baidu、google Java的分代回收机制），后面也会提到。那么何为假设2所说的意思呢，就是，已经进入老年代的对象，很少有会转为年轻代对象的情况。举个例子，在某个对象obj的成员变量中有个HashMap对象map1，在使用obj的各个方法（private、public等）中会时常用到这个map1所引用的对象，一般情况下，如果obj是老年代对象，那么map1所引用的对象也会进入老年代，于是map1就是老年代的引用。而如果此时，有线程调用了obj1的该map1的setter方法，重置了map1引用，使之指向了另外一个刚刚new出来的新的HashMap对象，就出现了假设2中所说的，老对象的引用转变为新对象的引用的情况。但是，一般情况下，这种setter方法会被调用情况的比较少，于是就有了假设2的存在。如下：
public class Obj1{ 　　private Map<String,String> map1 = null; 　　...... 　　public Obj1(){ 　　　　...... 　　　　map1 = new HashMap<>(); // 初始化　　　　...... 　　} 　　private void m1(){ ..... map1. put("ttt","yyy"); ... } 　　public void m2(){ ..... map1. put("ttt2","yyy2"); ... } 　　　　public void setMap1(Map<String,String> map){ 　　　　this.map1 = map; // map1引用在此方法中被重置，而map所指的对象可能是一个刚创建出来的新对象　　} 　　....... }
接着就来聊聊以上的三个问题。

二、哪些对象需要被回收

其实直观的感受是，不需要在任何时候任何地方再次使用的对象就可以被回收了。

这句话讲的很轻松，但实现起来却没那么容易，因为此时，其核心问题就变成了，如何找到这些“不需要在任何时候任何地方再次使用的对象”？

从前面的 JVM（二）JVM内存布局章节中我们了解到，JVM运行时的内存分布包括：堆、JVM栈、方法区、native方法栈、程序计数器。其中JVM栈、native方法栈、程序计数器都是线程私有的，其生命周期是和线程同步的，即它们是随线程生随线程灭，所以，不需要GC参与这些内存区域的对象的内存回收，那么仅剩下堆（Heap）、方法区需要GC来进行管理。于是，我们初步确定了GC要管理的对象位于堆和方法区。但是并未解决如何找到这些不再被使用的对象的问题。为此，聪明的前辈们研究出了一下一些算法

1. 引用计数算法

即分析一个对象有多少个引用在指向它，如果当指向这个对象的个数为0的时候，则该对象肯定是“不再被使用的对象”了，即可以被回收了，且看如下代码
public void m1(){ String str = new String("hello world"); // 这个时候，str 指向了String 对象“hello world”, 其引用数为1 　　 String str1 = str; // 对象“hello world”引用数为2 　　 String str2 = str; // 对象“hello world”引用数为3 　　......　　　 str2 = null; // 对象“hello world”引用数为2 　　 str1 = null; // 对象“hello world”引用数为1 str = null; // 对象“hello world”引用数为0，此时将不再有引用指向对象“hello world”了，其他任何线程、任何地方都无法再引用到这个对象了，于是，GC会认为这个对象能够被清除了。 }
但是这个算法存在一个很明显的问题，就是当两个对象循环引用的时候，各自的引用数都不为0（实际上为1）时，而这两个对象此时实际上不会被任何其他线程在任何时候使用了，但是，各自所占用的内存将无法被回收，因为其引用数不为0，且看如下代码：
public class ReferenceCountTest { static class A{ B bObj = null; } static class B{ A aObj = null; } public static void main(String[] args) { A aObj = new A(); B bObj = new B(); aObj.bObj = bObj; // B对象的引用数此时为2 bObj.aObj = aObj; // A对象的引用数此时为2 aObj = null; // A对象的引用数此时为1 bObj = null; // B对象的引用数此时为1 // 从此处开始，不会可能再在其他地方访问到A和B的两个实例对象， // 但是，很明显其引用数不会为0，如果采用引用数为0即可清除的算法，这两个对象占用的内存将永远得不到回收 // .............. } }
2. GC Roots算法（可达性分析算法）

引用计数算法，虽然简单、高效，但是，存在很明显的缺陷，所以不得不再去寻找新的算法来解决“寻找可回收对象”的问题。GC Roots算法就是为此而生的。目前主流的商用具有自动内存管理的语言中，基本都是使用该算法来判断对象是否可以被回收的对象，如Java、C#等。其基本思路就是，首先选定一系列GC Roots对象作为根节点，然后逐一分析这些GC Roots对象，顺着这些对象往下搜索，如果能够以这些对象为起点，能到达的对象，就称为可到达对象，否则称为不可到达对象。请看下图

从图中可以看出，object1、object2、object3、object4为可到达对象（因为可以从GC Roots到达），而object5、object6、object7则不可到达（无法从GC Roots到达），那么这三个对象（object5、object6、object7）即为可被回收的对象。而且很显然。这三个对象就是“引用计数算法”中的对象相互引用的典型案例，其每个对象的引用数都不为0。好的，这里确实解决了“如何找到可被回收对象”的问题。但是，还有一个问题未解决，就是如何确定这些GC Roots对象？

回顾前面 JVM（二）JVM内存布局的内容，可以知道，GC Roots对象应该存在如下区域
- JVM 栈中引用的对象
- 方法区中类静态属性引用的对象
- 方法区中常量引用的对象
- 本地方法栈中的JNI（即native方法）中引用的对象
至此，解决了第一个问题。

三、什么时候回收

有人会问，这个有什么好考虑的，把上面找到的对象的内存都直接回收了，不就完了吗？乍一看，似乎并没错，仔细分析，还是欠考虑。为什么这么说呢？

试想，如果你在内存几乎快要被占满的时候，如99%的内存已经被使用，再进行内存回收，势必会造成很高的回收时间成本（即回收一次会耗费比较长的时间）；如果你在内存使用不到一半甚至更少的时候（如40%）才回收内存，则势必会造成频繁的内存回收动作。这两种情况下，都会造成JVM性能的急剧下降。在GC的世界里，存在一个永远都回避不了的问题，那就是“stop the world”，就是说在内存真正被回收的时候，整个JVM的所有用户线程都会被挂起，等待内存回收的线程完成之后，用户线程才会继续运行。由此可见，过快的内存回收动作会导致用户线程被频繁挂起，而过慢的回收动作则会造成用户线程过长时间的被挂起。因此，在内存回收的时候，JVM会提供相关的配置参数供Java程序员使用，从而能根据不同的java应用程序（如高并发的、高吞吐量等），选择合适的内存回收器（一般都执行不同的回收算法），以此来提高JVM的性能，提高应用程序的性能。所以，“什么时候被回收”与采用的什么样的垃圾回收算器以及相关的配置参数是紧密相关的，换句话说就是，与“怎么回收”是紧密相关的。

四、怎么回收

想象一下，在一片内存区域（如50MB）中，分布了50个对象（假设每个对象都是1MB），其中有一部分是可以被删除的对象，有一部分是不能被删除的对象，而且他们在实际情况下，一般都是交替的分布在这个内存区域的，如下图：

如果简单的把可回收的对象直接从内存中删除，很显然会造成内存碎片，如果你想再分配一个稍大的对象，如：5MB的对象，发现却无内存可用，而实际的可用内存是要大于5MB的。于是，整理内存又成为了必要，即，把零散的存活的对象统统整理到内存某一个区域，把零散的空闲内存整理到另外一个区域，这样，就能分配出来一个5MB的大对象了。

回收后，如下图：

在这个例子中，我们潜意识的做了几件事情：
- 把可回收的对象标成了“浅蓝色”；
- 删除“浅蓝色”对象所占用的空间；
- 对内存进行了必要的整理（把可用对象统一复制到内存的某一区域，而使连续可用的内存分布在另一区域）；
从而简单的完成了内存回收。下面我先介绍下通用的内存回收算法。

1. 内存回收算法

1.1 标记-清除（Mark-Sweep）

这个算法很简单，就是把找到的不可达对象，先进行一次标记，如例子中的“把不可用对象被标为浅蓝色”，然后在后一次的清理过程中，直接把这些带标记的对象清除掉，从而完成内存的回收。这个是最基本的算法，后续介绍的算法，基本都是基于此算法进行改造而成。因为它具有两个明显的不足：
- 效率问题，标记和清除的过程效率都不高；
  
  内存碎片，如例子中如果不进行内存整理，势必会造成后续程序的运行过程中对大对象的分配无法实现，从而再次引发另一次内存回收，从而影响JVM的性能。
1.2 复制算法

为了解决效率问题，一种称为“复制”的算法应运而生。这种算法的基本思路是：把堆内存分为等额的两份，即各占50%，假设各自命名为A、B两块，这样，在分配内存的时候，只往在A中分配，当需要对A进行内存回收的时候，就把A中可达对象复制到B中，再统一回收掉A中的内存（这个回收只是简单的把堆顶指针移动到堆底即可，效率非常高），这样程序就能继续在A中进行内存分配了，完美的解决了效率和内存碎片问题。

不过，这个世界就是这么的有意思，当你解决了某些问题，总是可能连带的引发一些其他的问题。细心的读者可能会发现，虽然效率问题貌似被解决了，但是，原本1GB的内存空间，实际上只有500MB在使用，因为分配内存的时候，只在A半区进行；另外，虽然解决了内存整理的效率问题，但是，对象的复制问题还是存在，如果在A中存在很多的对象是可达对象，那么从A复制到B的对象的数量也是很多的，其效率也并不见得高。不过，好在，我们在文章的最前面就讲到了两个假设，其中一个就是，大部分的对象都会在很短的时间之内被清除，而实际上，也确实是这样。IMB的相关研究表明，98%的对象在新生对象都是“朝生夕死”的，所以根本没必要对A、B划分的时候采用1：1的比例进行，而是将内存分为一块较大的Eden区和两块同样大小的Survivor区，这样，在内存分配的时候，只使用Eden和其中一个Survivor区，当回收内存时，就把存活的对象一次性拷贝到另一个Survivor即可。默认情况下，Hotspot JVM的Eden：Survivor的比例为8：1，用户可以根据参数SurvivorRatio来指定分配比例。不过在极端情况下，Eden区和Survivor区的对象都存活的情况下，就无法把对象移动到Survivor区，那此时的内存分配就依赖其他内存（一般是老年代）进行分配担保。

内存的分配担保就好比我们去银行借款，如果我们信誉很好，在98%的情况下都能按时偿还，于是银行可能会默认我们下一次也能按时按量地偿还贷款，只需要有一个担保人能保证如果我不能还款时，可以从他的账户扣钱，那银行就认为没有风险了。内存的分配担保也一样，如果另外一块Survivor空间没有足够空间存放上一次新生代收集下来的存活对象时，这些对象将直接通过分配担保机制进入老年代。

1.3 标记-整理算法

该算法主要用于老年代，因为老年代的对象基本都比较稳定，从前面提到的“假设2”也看得出。其原理基本和“标记-清除”算法类似，只是后续的“清除”操作被“整理”取代了。来。整理即把可用的对象移动到一侧，然后把端边界的另外一侧全部清除。如下图：

1.4 分代收集算法

当前商业虚拟机的垃圾收集都采用“分代收集”（Generational Collection）算法，这种算法并没有什么新的思想，只是根据对象存活周期的不同将内存划分为几块。一般是把Java堆分为新生代和老年代，这样就可以根据各个年代的特点采用最适当的收集算法。在新生代中，每次垃圾收集时都发现有大批对象死去，只有少量存活，那就选用复制算法，只需要付出少量存活对象的复制成本就可以完成收集。而老年代中因为对象存活率高、没有额外空间对它进行分配担保，就必须使用“标记—清理”或者“标记—整理”算法来进行回收。

由于篇幅的限制，垃圾回收器的介绍考虑放到后面的章节中分享。不过也可以考虑不分享，毕竟，网上类似的文章已经非常非常多了。

参考：《深入理解Java虚拟机》

http://www.oracle.com/webfolder/technetwork/tutorials/obe/java/gc01/index.html

https://www.dynatrace.com/resources/ebooks/javabook/how-garbage-collection-works/
查看全文

相关阅读:
做支付遇到的HttpClient大坑
 一个隐藏在支付系统很长时间的雷
 记一次自动恢复的支付故障
 从GopherChina 2019看当前的go语言
 记一次上线就跪的故障排查案例
 springboot 源码笔记
 计算多边形面积
 springboots Helloworld
springboots 配置文件
 springboots 环境搭建

原文地址：https://www.cnblogs.com/scofield-1987/p/7546091.html