zoukankan      html  css  js  c++  java
  • 【协作式原创】查漏补缺之Go调度器设计

    主要回答的问题

    1. 进程,线程,协程区别
    2. 虚拟内存
    3. 局部性原理
    4. Go 1.0调度器的4个缺点
    5. Go 1.1调度器如何应对这4个缺点
    6. GMP模型
    7. 本地队列与全局队列的负载均衡
    8. 查看调度器日志
    9. GMP的状态转换

    进程,线程,协程

    TODO 虚拟内存

    局部性原理

    计算机组成原理,CPU缓存和局部性原理

    老调度器(Go 1.0)有4个缺点

    https://golang.org/s/go11sched
    http://lessisbetter.site/2019/03/10/golang-scheduler-1-history/

    What's wrong with current implementation:

    1. Single global mutex (Sched.Lock) and centralized state. The mutex protects all goroutine-related operations (creation, completion, rescheduling, etc).
    创建、销毁、调度G都需要每个M获取锁,这就形成了激烈的锁竞争
    解释:
    从源码中可以看到很多schedlock()的调用。比如,G状态的修改需要防止并发修改。

    https://sourcegraph.com/github.com/golang/go@release-branch.go1/-/blob/src/pkg/runtime/proc.c#L471
    https://sourcegraph.com/github.com/golang/go@release-branch.go1/-/blob/src/pkg/runtime/proc.c#L252

    优化思路:
    很自然的就能想到,把锁的粒度细化来提高减少锁竞争,也就是把全局队列拆除局部队列。
    具体实施:
    具体实施的时候会有一下几个问题。

    1. 这些局部队列放在哪儿呢?我们引入了一个P用来放局部队列。
    2. 应该拆分为几个局部队列呢? 与CPU核数一致。因为最多能有n个M同时执行,这样既能做到最大的并行度,又使得局部队列之间没有竞争。
      顺着这个思路,我们发现工作窃取也是很合理的,比如P1执行完本地队列,没必要闲着,可以去其他P的本地队列里偷任务来执行,这样可以更好的在可用的处理器之间分配任务。

    2. Goroutine (G) hand-off (G.nextg). Worker threads (M's) frequently hand-off runnable goroutines between each other, this may lead to increased latencies and additional overheads. Every M must be able to execute any runnable G, in particular the M that just created the G.
    M转移G会造成延迟和额外的系统负载。// 参考附录1的图示来讲解
    比如当G中包含创建新协程的时候,M创建了G’,为了继续执行G,需要把G’交给M’执行,也造成了很差的局部性,因为G’和G是相关的,最好放在M上执行,而不是其他M’。

    3. Per-M memory cache (M.mcache). Memory cache and other caches (stack alloc) are associated with all M's, while they need to be associated only with M's running Go code (an M blocked inside of syscall does not need mcache). A ratio between M's running Go code and all M's can be as high as 1:100. This leads to excessive resource consumption (each MCache can suck up up to 2M) and poor data locality.
    M中的mcache是预先分配用来存放小对象的内存。
    当M阻塞时,mcache内存是没有用到的。而M阻塞与M运行的比例大概是100:1,所以大部分M的mcache都是浪费的,我们可以考虑剥夺阻塞M的mcache给其他M用。// 附录1图片

    解释:mcache其实就是预先分配的一点内存用于存放小对象。 // 附录2
    1. mcache:每个运行期的goroutine都会绑定的一个mcache(具体来讲是绑定的GMP并发模型中的P,所以可以无锁分配mspan,后续还会说到),mcache会分配goroutine运行中所需要的内存空间(即mspan)。
    2. 为了避免多个goroutine申请内存时不断的加锁,`为每个goroutine分配了span内存块的缓存`,这个缓存即是mcache,每个goroutine都会绑定的一个mcache,各个goroutine申请内存时不存在锁竞争的情况。
    3. 我们再来看看mcache具体的结构:mcache中的span链表分为两组,一组是包含指针类型的对象,另一组是不包含指针类型的对象。为什么分开呢?
    4. 对于 <=32k的对象,将直接通过mcache分配。
    

    4. Aggressive thread blocking/unblocking. In presence of syscalls worker threads are frequently blocked and unblocked. This adds a lot of overhead.
    系统调用导致频繁的线程阻塞和取消阻塞操作增加了系统开销。
    解释:
    GM时,GM的状态基本是一致的,G阻塞一定会导致内核线程M阻塞。M阻塞和唤醒就会造成系统开销。
    优化思路:
    很自然可以想到,G阻塞时,想办法让M可以被继续使用。
    部分解决:
    引入P解决了异步系统调用情况下的 阻塞线程和取消阻塞线程 的系统开销。但是没有解决同步系统调用情况下阻塞M的问题。// 附录3
    更具体的阻塞场景:Go调度器如何处理goroutine阻塞的情况? // TODO: 这里需要去了解channel的机制。

    新调度器

    Q: 为什么还要保留全局队列。// 类似地方政府和中央政府,大家有事都找中央政府,协调不过来。
    A1: 简短回答. 提供本地队列到全局队列的负载均衡。
    A2: 详细回答.

    1. 如果只有本地队列,就需要加锁访问本地队列,带来额外开销。
      因为本地队列空时,P空闲需要去窃取其他P的本地队列,本地队列满时,需要往其他P送G。这两种情况都会造成多个P访问一个本地队列的情况,所以需要加锁访问。
    2. 如果我们保留全局队列,又有本地队列,那么任意P的本地队列是只有P自己才能访问的,所以不需要加锁。(创建,删除,修改状态都没有并发问题)
      全局队列仍然需要加锁访问,但是访问的次数远小于访问本地队列的次数。本地队列空了就去全局队列拿,满了往全局队列放。空了满了是少数情况,大部分正常执行无锁访问本地队列的。

    负载均衡

    1. 空的时候和满的时候。借助全局队列进行负载均衡。
    2. 为了防止全局队列被饥饿,"为了公平,每调用 schedule 函数 61 次就要从全局可运行 goroutine 队列中获取"
      https://mp.weixin.qq.com/s/pRCWOKlI48soY0deOWoSEw

    GPM的状态转换 // TODO

    查看调度器日志

    • Q: go启动的线程数量
      可以使用go tool 打印调度器的日志。

    http://lessisbetter.site/2019/03/26/golang-scheduler-2-macro-view/
    https://colobu.com/2016/04/19/Scheduler-Tracing-In-Go/
    Scheduler Tracing In Go

    其他

    我们在做系统改进时,每当引入一种解决方案时,除了关注其优点,还需要关注新方案引入了哪些新问题,在解决旧问题和引入新问题之间找到平衡点。

    参考

    1. 图解Go1.11的内存分配
    2. 同步/异步系统调用
  • 相关阅读:
    How to configure SQL 2005 Database Mail
    Restore DataBase後執行以下語句.txt
    安装Sql Server 2005出现“性能监视器计数器要求”错误解决方法
    无法对视图创建 索引,因为该视图未绑定到架构
    2D Barcode相關源碼 (Object C)
    row_number()
    最大边与最小边差最小的最小生成树——pku3522
    最小生成树计数——JSOI2008
    STL map 简单的应用
    最大生成树kruskal——pku3723
  • 原文地址:https://www.cnblogs.com/yudidi/p/12439430.html
Copyright © 2011-2022 走看看