zoukankan      html  css  js  c++  java
  • Windbg调试关键区(CriticalSection)死锁

    一. 准备工作

    这里一个有关键区锁死问题的程序,运行之后依次点击“CS锁死”按钮、右上角退出按钮,程序就会卡死。(图1)
    图1

    对于眼下的这个问题,界面完全失去响应,这说明负责消息处理的UI线程阻塞了。对于几乎所有的windows GUI程序,编号为0的初始线程就是UI线程,windows发现该界面一段时间没有消息响应之后就会在标题后面加上“(未响应)”。

    二. 开始调试

    启动Windbg,附加到执行进程(F6),这时如果在windbg输出的上面看到如下内容(图2),说明第一步的环境变量设置生效了。
    图2

    ~*knv3 查看各个线程的调用堆栈(图3),数字3表示显示的堆栈深度,省略即显示完整堆栈。
    图3

    #0号线的栈帧0表示线程程阻塞在NtWaitForSingleObject函数,MSDN得知该函数原型为:

    NTSTATUS WINAPI NtWaitForSingleObject(
     _In_ HANDLE         Handle, 
      _In_ BOOLEAN        Alertable,
      _In_ PLARGE_INTEGER Timeout
    );
    

    第一个参数Handle为其等待的句柄,第三个参数TimeOut为超时时间。
    同样从栈帧0得知NtWaitForSingleObject正在等待句柄000000c4,超时时间为0(即没信号就一直等待)。

    !handle 000000c4 f 命令查看该句柄的信息(图4):
    图4

    现在我们知道c4句柄就是线程20d0的句柄,主线程在退出的时候等待该线程退出,而该线程一直没有退出,所以主线程卡死了。

    根据图3得知20d0线程就是#1线程,~1kvn 查看该线程完整堆栈(图5):
    图5

    栈帧00 NtWaitForSingleObject 表示线程在等待000000c0句柄。
    !handle 000000c0 f 得知c0句柄为事件句柄:

    0:002> !handle c0 f
    Handle c0
      Type         	Event
      Attributes   	0
      GrantedAccess	0x100003:
             Synch
             QueryState,ModifyState
      HandleCount  	2
      PointerCount 	4
      Name         	<none>
      Object Specific Information
        Event Type Auto Reset
        Event is Waiting
    

    !locks 查看进程中哪些锁处于锁定状态(图6):
    图6

    从第一行结果可以得知是gcsName临界区(需要有pdb才会显示具体变量名)处于锁定状态。

    其实,我们从栈帧02 RtlEnterCriticalSection 也可以很快的知道该线程一直在等待进入关键区。

    经过分析,知道程序如法退出的原因了:线程#1中的关键区gcsName处于锁定状态(也就是一直等待进入关键区),导致线程#1阻塞无法执行。又因主线程在退出的时候执行了WaitForSingleObject等待#1线程,从而导致主线程卡死。

    关键区机制主要是通过下面这样的RTL_CRITICAL_SECTION结构来实现的,可以通过dt 命令查看该结构定义:

    0:002> dt RTL_CRITICAL_SECTION
    Test1!RTL_CRITICAL_SECTION
       +0x000 DebugInfo        : Ptr32 _RTL_CRITICAL_SECTION_DEBUG
       +0x004 LockCount        : Int4B
       +0x008 RecursionCount   : Int4B
       +0x00c OwningThread     : Ptr32 Void
       +0x010 LockSemaphore    : Ptr32 Void
       +0x014 SpinCount        : Uint4B
    

    其中,LockCount字段用来标识关键区的锁状态,RecursionCount字段用来记录递归次数,用来支持同一个线程多次进入关键区,OwningThread字段用来记录进入(拥有)关键区的线程ID,LockSemaphore用来记录这个关键区对应的事件对象,当有线程需要等待这个关键区时,便是通过等待这个事件来做到的,这个事件对象是按需创建的,如果LockSemaphore为NULL表示这个关键区从来没有线程在此等待过。

    通过图6中的OwningThread=738得知,关键区被线程ID为738的线程所拥有,即Enter之后一直没有Leave。

    知道了是哪个线程获取了关键区但没有释放,就可以很容易的在代码中定位问题了。

    !locks 没有显示LockSemaphore字段,我们可以通过!cs -l 命令获取更为全面的关键区信息:
    图7

    从上图可以看到LockSemaphore=0xC0,正好是#1线程NtWaitForSingleObject的事件对象。

  • 相关阅读:
    生产者与消费者
    .net 重新注册
    linux 网络之 bond 网卡模式
    Rancher
    kubernetes 集群
    centos7 网卡命名
    Redis 主从模式
    Redis 集群
    Redis
    TwemProxy Redis架构
  • 原文地址:https://www.cnblogs.com/jiangxueqiao/p/7418005.html
Copyright © 2011-2022 走看看