后线程时代的应用程序架构

zoukankan html css js c++ java

后线程时代的应用程序架构

“后线程时代”，这跟好几个名词有关系， C# async await 关键字， Socket Async， ThreadPool，单体（Monosome）， “异步回调流” 。

“异步回调流” 是 “异步回调流派” 的意思， node.js， libuv， Java Netty ，这些是典型的异步回调流。

async await 是单体（Monosome），

我在之前的文章《我反对使用 async await》 https://www.cnblogs.com/KSongKing/p/10216913.html 中提到， “async await 正带领 C# 向 Javascript 进化” 。

至于 Socket Async ，和 async await 有关系，也跟异步回调流有关系。

我们来看看一位网友从一篇文章上节取下来的 2 段文字：

所以，从理论上看，过多的线程切换对性能的消耗是挺大的，如果能省去这部分开销， “节省” 下来的性能是可观的，也许能让服务器的吞吐量（并发量）提高 1 个数量级。

所以， Visual Studio 自己也在使用 async await，从 Visual Studio 有时候报错的错误信息来看，错误信息中含有 “MoveNext_xx ……” 这样的文字，这就是 async await 。

线程池（ThreadPool）本身就能将线程数量控制在一个有限的范围内，

而将线程数量控制在一个有限的范围内是减少线程切换的基础。

我猜测 async await 的底层是基于 ThreadPool 的，是以 ThreadPool 作基础的。

如果是这样，那么 async await 和异步回调流是等价的。

什么是异步回调流？

我们可以把程序分为 3 个部分：

1 顺序执行

2 等待 IO

3 定时轮询

1 把顺序执行的多任务放到 ThreadPool 的工作队列里排队，让 ThreadPool 调度执行，

2 对于 IO 调用，采用异步调用的方式，传入回调委托，当 IO 完成时，当 IO 完成时，回调委托，

3 对于定时轮询，采用 ThreadPool 提供的方式，如 Timer，

这样，做到以上 3 点，就是纯粹的异步回调流。

理论上，异步回调流可以将线程数量控制在有限的范围内，或者，只需要使用很小数量的线程。

这样，就像上面说的，可以节省“可观”的性能，可能能让服务器的吞吐量提高 1 个数量级。

我写了一个对 Socket 使用各种线程模型的测试项目： https://github.com/kelin-xycs/SocketThreadTest

从实验中，我们看到，在并发量大时，比如 800 个 Socket 连接以上时， ThreadPool 的性能优于 NewThread 的方式， NewThread 是指为每个连接创建一个线程。

但是， Async 和 Begin 的方式效率低于同步方法（Socket.Receive(), Socket.Send()）的方式。

甚至， Begin 方式中把 BeginSend() 改成了 Send() 后，效率还提高了一些。当然 Receive 仍然是使用 BeginReceive() 。

Async 方式中 Accept, Receive, Send 全部使用 Async 方法，即 AcceptAsync(), ReceiveAsync(), SendAsync() 方法。

所以，如果 Server 端 Socket 的操作全部使用异步的方式，是否会比同步的 Receive() Send() 方式的性能更高，这个没有看到有说服力的实验。

So ……

So …… ？

So ？

我写了一个对 async await 性能测试的项目： https://github.com/kelin-xycs/AsyncAwaitTest

解决方案里包括 4 个项目，这 4 个项目都是通过 ThreadPool 来运行读取文件的任务：

1 ThreadPoolRead，使用 File.Read() 方法

2 ThreadPoolReadAsync，使用 await File.ReadAsync()

3 ThreadPoolReadWait，使用 Task t = File.ReadAsync(); t.Wait();

4 ThreadPoolBeginRead，使用 File.BeginRead() 方法

5 ThreadPoolContinueWith，使用 Task t = File.ReadAsync(); t.ContinueWith();

6 ThreadPoolGetAwaiter，使用 Task t = File.ReadAsync(); t.GetAwaiter().OnCompleted();

任务是从文件中读取 2 KB 的数据，默认开启 10 万个任务，可以自己修改任务数量。

测试结果是：

10 万个任务，完成用时，

Read() ： 0.43 秒，多次测试表现稳定，基本上稳定在 0.43 秒左右。 CPU 占用率高峰期 15% 左右，可能略小。

ReadAsync() ：最快 0.6 秒，多次测试的表现差距很大，受电脑上其它进程的影响很大，在几秒到 20 几秒之间不等。 CPU 占用率高峰期 15% 左右。

ReadWait ：定在那里，没有结果，可能 ThreadPool 里不能 t.Wait() 。定着时候 CPU 占用率 0% 。

BeginRead ：最快 1.1 秒，多次测试的表现差距很大，受电脑上其它进程的影响很大，在几秒到 20 几秒之间不等。 CPU 占用率高峰期 15% 左右。

ContinueWith ：最快 0.83 秒，多次测试的表现差距很大，受电脑上其它进程的影响很大，在几秒到 20 几秒之间不等。 CPU 占用率高峰期 15% 左右。

GetAwaiter ：最快 0.7 秒，多次测试的表现差距很大，受电脑上其它进程的影响很大，在几秒到 20 几秒之间不等。 CPU 占用率高峰期 15% 左右。

总的来说， Read 的方式效率最高，且是稳定运行的，其它的方式效率略低，且不稳定。

从我这几次的测试，包括 Socket 和 File，异步问题很多，效率低于 Socket.Receive()， Socket.Send()， File.Read() 方法，且不稳定。

目前看起来 ThreadPool + 同步方法调用是最优的方案，高效稳定。可以这么说，可以用这个架构来在 .Net 上构建服务器端应用。

（注：括号里的这段注解内容是我后来补充的，后来通过对 “无阻塞” 编程的研究，发现异步方法的意义在于无阻塞，所以对于大并发应用来讲， ThreadPool + 异步方法无阻塞的方式会更适合，参考《无阻塞编程模型》 https://www.cnblogs.com/KSongKing/p/10287882.html

有网友说，在测试中，同时发起多个读取文件操作，没有指定 FileStream.Position，所以每个任务读取的内容是不确定的。确实，存在这样的问题，但我的这个测试主要是为了观察各种线程模型在大并发包含 IO 操作下的表现，所以 Position 的问题不影响观察实验结果。对于可以并发读取的 IO 操作比如 Socket，这个实验是有类比参考意义的。又假设文件操作也是可以并发的，那么在读取文件的方法（比如 Read(), BeginRead(), ReadAsync() ）里可以传入 position 参数，这样就可以并发读取。）

而这些测试也表明了， async await 的表现并不是想象中那样理想。相对于同步方法不仅效率没有更高，还更低。

也就是说，我们从理论上看到的线程切换带来的性能损耗及其推论的相关理论，和实际不完全相符，

这暗示着，计算机可能在按另外的规律在运行。

技术上，自己可以实现状态机和 Promise 之类的，用类似 Task.Factory.FromAsync( BeginXXX …… ) 这样的方式，通过我们自己写一个类似 FromAsync() 这样的方法，可以截获 BeginXXX 方法返回的 IAsyncResult 对象，我们可以把 IAsyncResult 放入状态机的队列里，然后，状态机通过 ThreadPool 的 Timer 来定时（比如 10 毫秒）来遍历检查这些 IAsyncResult 的状态看异步调用是否结束，若结束则调用回调，或者按照 Promise .When() 的逻辑等待几个任务的 IAsyncResult 的状态都是完成时，再调用 Then 委托。

这样可以实现 async await 的状态机，也可以实现 Promise 。

但问题是定时和遍历，尤其是遍历，效率不见得高。

另外，将代码切割成多块，频繁的把小块任务放到 ThreadPool 的队列里排队，也会降低效率，因为操作队列需要 Lock（同步互斥），频繁的把小块任务放入队列和取出执行会发生更多的 Lock 。

同时，将代码切割成多块，变为回调的方式，也会增加一些工作量，比如闭包封送参数，或是 State 对象传递参数，以及异步回调相关的代码。

所以，从这里也说明了，我所做的屡次实验，从 Socket 到 File， Begin Async 等异步方法效率总是低于同步的 Socket.Receive()， Socket.Send()， File.Read() 方法的缘故。

async await 可能是微软的一支战略吧，不过看起来微软到现在对 async await 都语焉不详。

不过 async await 大概是微软要实践 “单体” 这个理论，所以，说它带领 C# 向 Javascript 进化一点不为过。

但实践表明，这个 “单体” 的性能不见得是最优，减少线程切换和彻底的单线程（单体）之间有一个最大公约数。

从通信上， IO 完成时，发信号通知线程，进入就绪队列，这个是最优的，但问题是带来了切换上下文问题。

但如果不想切换上下文，就要线程 “自己” 去看 IO 完成没，就变成轮询。 So ……

减少线程切换和彻底的单线程（单体）之间有一个折中点，不是完全偏向哪边就是最好的。

单体，就是一个线程负责所有的任务调度。

从这几天的实践可以大概看到，省掉了切换上下文，但是频繁的把任务放到 ThreadPool 的工作队列里排队，实际上又增加了性能消耗，  实时响应性反而不好。

其实从我的 ThreadPoolRead 这个项目，就是用 Read 方法的这个项目， 10 万次读取文件 0.43 秒完成的这个，

可以推算出一次线程切换是多少时间。

或者说， 1 秒钟可以切换多少次线程。

因为数据量小，且是重复读取，所以，第一次之后，都是从缓冲区读取，是内存 -> 内存的拷贝，很快。

这样，业务操作越简单，越能反映出线程切换的时间，或者说， 1 秒能切换多少次线程。现在看到的数量是很可观的。

有网友提到性能测试要在 “密集计算” 下测，所谓密集计算，我想就是指包含大量业务逻辑的计算。在业务逻辑复杂的情况下，线程切换时 CPU Cache 被刷新的效应可能会更显著。

不过具体对性能的影响如何，还是要通过实验来看实际的效果。

我们来看看 docs.microsoft 对 Thread 的说明： https://docs.microsoft.com/zh-cn/dotnet/api/system.threading.thread.-ctor?view=netframework-4.7.2#System_Threading_Thread__ctor_System_Threading_ThreadStart_System_Int32_

默认最大的栈大小是 1 MB，  最小的栈大小大概是 256 KB，  大概是这么一个体量。

从某个角度来看，线程使用中的堆栈空间越小，切换线程的时间就越快。

理想的状况，线程的堆栈数据可以长期存放在 CPU 3 级 Cache，这样可以快速的切换线程。

我们来看看内存的读写速度： https://zhidao.baidu.com/question/1797460631148535467.html

DDR 3 的读写速度是 12.8 GB/S，可以认为是 1 纳秒可以读取 10 B， 1 微秒可以读取 10 KB 。

1 微秒 10 KB， 100 微秒 1 MB，所以，完全刷新一个线程 1MB 的栈，需要 100 微秒，即 0.1 毫秒。

所谓 “刷新”，是指将数据从内存复制到 CPU 3 级缓存。

这样的话，如果一个线程的栈是 1 MB，当然这算是大的了，切换到这个线程的时间需要 0.1 毫秒以上（因为还有其它操作），

这有点太 “重型” 了。

实际的情况不完全是这样，我们看看上面 docs.microsoft 对 Thread 的说明：

可以看到，有一个 “页大小 64KB”，从这里我们可以想到，操作系统从内存复制数据到 3 级缓存时，不见得会把整个栈的数据复制过来，而应该是把当前可能用到的那一段数据复制过来。而复制数据的单位就是虚拟内存页，一个虚拟内存页是 64 KB 。

根据上面推算的 1 微秒 10 KB，从内存复制 64 KB 数据到 3 级 Cache 要 6.4 微秒。

但，如果堆栈的数据能够长期存放在 3 级 Cache，那这个 6.4 微秒的时间也不需要了。

所以，我提出一个定理：

如果 n 个线程使用的堆栈空间大小总和是 CPU 3 级 Cache 的 1/3，则这 n 个线程的线程切换是健康的，常规的。

比如，有 100 个线程，每个线程最大堆栈空间是 64 KB，那么， 10 个线程的堆栈空间总和是 64 KB * 100 约等于 6.4 MB，

则若 CPU 的 3 级缓存大小是 6.4 MB * 3 = 19.2 MB 以上的话，这 100 个线程的线程切换就是健康的，常规的。

从这个角度来讲，如果硬件技术在 CPU Cache 上能够有效进步的话，未来若干年内，摩尔定律将会继续有效。

减小线程上下文，减少线程切换的工作量，线程切换轻量化，线程轻量化，是操作系统轻量化的一个方向。

这一点我也加到了《未来需要的是轻量操作系统而不是容器》  https://www.cnblogs.com/KSongKing/p/9259628.html 一文里。

最后，本文结论是：

1 用 ThreadPool 合理利用线程资源就可以了，不必过度使用异步回调来达到节省性能的目的。

2 可以有针对性的改善硬件资源来减小线程切换的性能损耗。比如 CPU Cache，尤其是 3 级 Cache 。

3 还是那几句老话 “硬件是最廉价的”， “代码是写给人看的”， “维护软件的成本比购买硬件的成本高”， “人是最昂贵的” 。

再加上一条，经过这几天的研究，发现无阻塞是有利的，可以参考《无阻塞编程模型》  https://www.cnblogs.com/KSongKing/p/10287882.html 。

查看全文

相关阅读:
【学习笔记】【C语言】注释
 【学习笔记】【C语言】标识符
 【学习笔记】【C语言】关键字
 【学习笔记】【C语言】第一个C程序
 【学习笔记】Xcode常见设置
 【学习笔记】Mac OS X系统介绍
 【学习笔记】虚拟机安装Mac系统
 javascript 对象 + 数组
 SpringMVC实现原理及详解
 javaweb国际化

原文地址：https://www.cnblogs.com/KSongKing/p/10228842.html

后线程时代 的 应用程序 架构

后线程时代的应用程序架构