1. Oops信息来源及格式
Oops这个单词含义为“惊讶”,当内核出错时(比如访问非法地址)打印出来的信息被称为Oops信息。
Oops信息包含以下几部分内容:
(1)一段文本描述信息。
比如类似“Unable to handle kernel NULL pointer dereference at virtual address 00000000"的信息,他说明了发生的是哪类错误。
(2)Oops信息的序号。
比如是第几次等。这些信息与下面类似,括号内的数据表示序号。
- Internal error: Oops: 806 [#1]
(3)内核中加载的模块名称,也可能没有,以下面字样开头。
- Modules linked in:
(4)发生错误的CPU的序号,对于单处理器系统,序号为0,如:
- CPU: 0 Not tainted (2.6.22.6 #36)
(5)发生错误时CPU的各个寄存器值。
(6)当前进程的名字及进程ID,比如:
- Process swapper (pid: 1, stack limit = 0xc0480258)
这并不是说发生错误的是这个进程,而是表示发生错误时,当前进程是它。错误可能发生在内核代码、驱动程序,也可能就是这个进程的错误。
(7)栈信息。
(8)栈回溯信息,可以从中看出函数调用关系,形式如下:
- Backtrace:
- [<c001a6f4>] (s3c2410fb_probe+0x0/0x560) from [<c01bf4e8>] (platform_drv_probe+0x20/0x24)
- ......
(9)出错指令附近的指令机器码,比如(出错指令在小括号内):
- Code: e24cb004 e24dd010 e59f34e0 e3a07000 (e5873000)
2. 配置内核使Oops信息的栈回溯信息更直观
Linux 2.26.32自身具备的调试功能,可以使打印出的Oops信息更直观。通过Oops信息中PC寄存器的值可以知道出错指令的地址,通过栈回溯信息可以知道出错时的函数调用关系,根据这两点可以很快定位错误。
要让内核出错时能够打印栈回溯信息,编译内核时要增加“-fno-omit-frame-pointer"选项,这可以通过配置CONFIG_FRAME_POINTER来实现。查看内核目录下的配置文件.config,确保CONFIG_FRAME_POINTER已经被定义,如果没有,执行“make menuconfig”命令重新配置内核。CONFIG_FRAME_POINTER有可能被其他配置项目自动选上。
3使用Oops信息调试内核的实例
(1)获得Oops信息
本小节故意修改 LCD 驱动程序 drivers/video/s3c2410fb.c,加入错误代码:在 s3c2410fb_
probe 函数的开头增加下面两条代码:
- int *ptest = NULL;
- *ptest = 0x1234;
重新编译内核,启动后会出错并打印出如下 Oops 信息:
- Unable to handle kernel NULL pointer dereference at virtual address 00000000
- pgd = c0004000
- [00000000] *pgd=00000000
- Internal error: Oops: 805 [#1]
- last sysfs file:
- Modules linked in:
- CPU: 0 Not tainted (2.6.32 #24)
- PC is at s3c2410fb_probe+0xc/0x18
- LR is at platform_drv_probe+0x18/0x1c
- pc : [<c0018f78>] lr : [<c01d3f88>] psr: a0000013
- sp : c3823f30 ip : c3842e7c fp : 00000000
- r10: 00000000 r9 : 00000000 r8 : c0445008
- r7 : c38a0840 r6 : c0440d18 r5 : c042d178 r4 : 00000000
- r3 : 00001234 r2 : 00000000 r1 : 00000000 r0 : c042d170
- Flags: NzCv IRQs on FIQs on Mode SVC_32 ISA ARM Segment kernel
- Control: c000717f Table: 30004000 DAC: 00000017
- Process swapper (pid: 1, stack limit = 0xc3822270)
- Stack: (0xc3823f30 to 0xc3824000)
- 3f20: 00000000 c01d2e7c c0440d18 c042d178
- 3f40: 0000000c c042d178 c042d1ac c0440d18 c38a0840 c01d3068 00000000 c01d300c
- 3f60: c0440d18 c01d24e8 c3804938 c3847330 00000000 00000000 c0440d18 c01d1d48
- 3f80: c03a1506 c03a1506 00000001 c0022dd4 00000000 c0440d18 c0018f84 00000000
- 3fa0: 00000000 c01d3334 c0022dd4 00000000 00000000 c0018f84 00000000 c0018f90
- 3fc0: c0022dd4 c002e37c c0018f84 c03c5ab3 c0457880 c0022fc8 c0022dd4 00000000
- 3fe0: 00000000 00000000 00000000 c00083f8 00000000 c002fe54 00000000 00000000
- [<c0018f78>] (s3c2410fb_probe+0xc/0x18) from [<c01d3f88>] (platform_drv_probe+0x18/0x1c)
- [<c01d3f88>] (platform_drv_probe+0x18/0x1c) from [<c01d2e7c>] (driver_probe_device+0x148/0x2d8)
- [<c01d2e7c>] (driver_probe_device+0x148/0x2d8) from [<c01d3068>] (__driver_attach+0x5c/0x7c)
- [<c01d3068>] (__driver_attach+0x5c/0x7c) from [<c01d24e8>] (bus_for_each_dev+0x48/0x78)
- [<c01d24e8>] (bus_for_each_dev+0x48/0x78) from [<c01d1d48>] (bus_add_driver+0xe0/0x288)
- [<c01d1d48>] (bus_add_driver+0xe0/0x288) from [<c01d3334>] (driver_register+0xa4/0x130)
- [<c01d3334>] (driver_register+0xa4/0x130) from [<c0018f90>] (s3c2410fb_init+0xc/0x28)
- [<c0018f90>] (s3c2410fb_init+0xc/0x28) from [<c002e37c>] (do_one_initcall+0x5c/0x1b4)
- [<c002e37c>] (do_one_initcall+0x5c/0x1b4) from [<c00083f8>] (kernel_init+0x94/0x10c)
- [<c00083f8>] (kernel_init+0x94/0x10c) from [<c002fe54>] (kernel_thread_exit+0x0/0x8)
- Code: eafffe97 e3a02000 e59f3008 e1a01002 (e5823000)
- ---[ end trace da227214a82491b7 ]---
- swapper used greatest stack depth: 5792 bytes left
- Kernel panic - not syncing: Attempted to kill
- [<c00352ac>] (unwind_backtrace+0x0/0x150) from [<c0311c54>] (panic+0x40/0x120)
- [<c0311c54>] (panic+0x40/0x120) from [<c0046cbc>] (do_exit+0x64/0x5f4)
- [<c0046cbc>] (do_exit+0x64/0x5f4) from [<c0032f28>] (die+0x15c/0x180)
- [<c0032f28>] (die+0x15c/0x180) from [<c00360a0>] (__do_kernel_fault+0x64/0x74)
- [<c00360a0>] (__do_kernel_fault+0x64/0x74) from [<c0036268>] (do_page_fault+0x1b8/0x1cc)
- [<c0036268>] (do_page_fault+0x1b8/0x1cc) from [<c002e2c0>] (do_DataAbort+0x34/0x94)
- [<c002e2c0>] (do_DataAbort+0x34/0x94) from [<c002ea20>] (__dabt_svc+0x40/0x60)
- Exception stack(0xc3823ee8 to 0xc3823f30)
- 3ee0: c042d170 00000000 00000000 00001234 00000000 c042d178
- 3f00: c0440d18 c38a0840 c0445008 00000000 00000000 00000000 c3842e7c c3823f30
- 3f20: c01d3f88 c0018f78 a0000013 ffffffff
- [<c002ea20>] (__dabt_svc+0x40/0x60) from [<c0018f78>] (s3c2410fb_probe+0xc/0x18)
- [<c0018f78>] (s3c2410fb_probe+0xc/0x18) from [<c01d3f88>] (platform_drv_probe+0x18/0x1c)
- [<c01d3f88>] (platform_drv_probe+0x18/0x1c) from [<c01d2e7c>] (driver_probe_device+0x148/0x2d8)
- [<c01d2e7c>] (driver_probe_device+0x148/0x2d8) from [<c01d3068>] (__driver_attach+0x5c/0x7c)
- [<c01d3068>] (__driver_attach+0x5c/0x7c) from [<c01d24e8>] (bus_for_each_dev+0x48/0x78)
- [<c01d24e8>] (bus_for_each_dev+0x48/0x78) from [<c01d1d48>] (bus_add_driver+0xe0/0x288)
- [<c01d1d48>] (bus_add_driver+0xe0/0x288) from [<c01d3334>] (driver_register+0xa4/0x130)
- [<c01d3334>] (driver_register+0xa4/0x130) from [<c0018f90>] (s3c2410fb_init+0xc/0x28)
- [<c0018f90>] (s3c2410fb_init+0xc/0x28) from [<c002e37c>] (do_one_initcall+0x5c/0x1b4)
- [<c002e37c>] (do_one_initcall+0x5c/0x1b4) from [<c00083f8>] (kernel_init+0x94/0x10c)
- [<c00083f8>] (kernel_init+0x94/0x10c) from [<c002fe54>] (kernel_thread_exit+0x0/0x8)
(2)分析 Oops 信息
- 确出错原因。
由出错信息“Unable to handle kernel NULL pointer dereference at virtual address 00000000”可知内核是因为非法地址访问出错,使用了空指针。
- 根据栈回溯信息找出函数调用关系。
内核崩溃时,可以从 pc 寄存器得知崩溃发生时的函数、出错指令。但是很多情况下,错误有可能是它的调用者引入的,所以找出函数的调用关系也很重要。
部分栈回溯信息如下:
- [<c0018f78>] (s3c2410fb_probe+0xc/0x18) from [<c01d3f88>] (platform_drv_probe+0x18/0x1c)
这行信息分为两部分,表示后面的 platform_drv_probe 函数调用了前面的 s3c2410fb_probe函数。
前半部含义为:“c0018f78”是 s3c2410fb_probe 函数首地址偏移 0xc 的地址,这个函数大小为 0x18。
后半部含义为:“c01d3f88”是 platform_drv_probe 函数首地址偏移 0x18 的地址,这个函数大小为 0x1c。
另外,后半部的“[<c01d3f88>]”表示 s3c2410fb_probe 执行后的返回地址。
对于类似下面的栈回溯信息,其中是 r8~r4 表示 driver_probe_device 函数刚被调用时这
些寄存器的值。
从上面的栈回溯信息可以知道内核出错时的函数调用关系如下,最后在 s3c2410fb_probe函数内部崩溃。
- do_exit ->
- kernel_init ->
- do_one_initcall ->
- s3c2410fb_init ->
- driver_register ->
- bus_add_driver ->
- bus_for_each_dev ->
- __driver_attach ->
- driver_probe_device ->
- platform_drv_probe ->
- s3c2410fb_probe
- 根据 pc 寄存器的值确定出错位置。
上述 Oops 信息中出错时的寄存器值如下:
- PC is at s3c2410fb_probe+0xc/0x18
- LR is at platform_drv_probe+0x18/0x1c
- pc : [<c0018f78>] lr : [<c01d3f88>] psr: a0000013
- sp : c3823f30 ip : c3842e7c fp : 00000000
- r10: 00000000 r9 : 00000000 r8 : c0445008
- r7 : c38a0840 r6 : c0440d18 r5 : c042d178 r4 : 00000000
- r3 : 00001234 r2 : 00000000 r1 : 00000000 r0 : c042d170
"PC is at s3c2410fb_probe+0xc/0x18"表示出错指令为 s3c2410fb_probe 函数中偏移为0xc 的指令。
"pc : [<c0018f78>] "表示出错指令的地址为 c0018f78(十六进制)。
- 结合内核源代码和反汇编代码定位问题。
先生成内核的反汇编代码 vmlinux.dis,执行以下命令:
- $ cd ~/Documents/myTest/kernel/linux-2.6.32
- $ arm-linux-objdump -D vmlinux > vmlinux.dis
出错地址 c0018f78 附近的部分汇编代码如下:
- c0018f64 <s3c2412fb_probe>:
- c0018f64: e3a01001 mov r1, #1 ; 0x1
- c0018f68: eafffe97 b c00189cc <s3c24xxfb_probe>
- c0018f6c <s3c2410fb_probe>:
- c0018f6c: e3a02000 mov r2, #0 ; 0x0
- c0018f70: e59f3008 ldr r3, [pc, #8] ; c0018f80 <s3c2410fb_probe+0x14>
- c0018f74: e1a01002 mov r1, r2
- c0018f78: e5823000 str r3, [r2] <===========出错指令
- c0018f7c: eafffe92 b c00189cc <s3c24xxfb_probe>
- c0018f80: 00001234 .word 0x00001234
- c0018f84 <s3c2410fb_init>:
- c0018f84: e92d4010 push {r4, lr}
- c0018f88: e59f0014 ldr r0, [pc, #20] ; c0018fa4 <s3c2410fb_init+0x20>
- c0018f8c: eb06ed06 bl c01d43ac <platform_driver_register>
- c0018f90: e3500000 cmp r0, #0 ; 0x0
- c0018f94: 18bd8010 popne {r4, pc}
- c0018f98: e59f0008 ldr r0, [pc, #8] ; c0018fa8 <s3c2410fb_init+0x24>
- c0018f9c: e8bd4010 pop {r4, lr}
- c0018fa0: ea06ed01 b c01d43ac <platform_driver_register>
- c0018fa4: c0440d04 .word 0xc0440d04
出错指令为“str r3, [r2]”,它把 r3 寄存器的值放到内存中,内存地址为 r2 寄存器的值。
根据 Oops 信息中的寄存器值可知:r3 为 00001234, r2 为 0。0 地址不可访问,所以出错。
- static int __init s3c2410fb_probe(struct platform_device *pdev)
- {
- // add for kernel panic --begin
- int *ptest = NULL;
- *ptest = 0x1234;
- // add for kernel panic --end
- return s3c24xxfb_probe(pdev, DRV_S3C2410);
- }
结合反汇编代码,很容易知道是“*ptest = 0x1234;”导致错误,其中的 ptest 为空。对于大多数情况,从反汇编代码定位到 C 代码并不会如此容易,这需要较强的阅读汇编程序的能力。通过栈回溯信息知道函数的调用关系,这已经可以帮助定位很多问题了。
4.使用 Oops 的栈信息手工进行栈回溯
前面说过,从 Oops 信息的 pc
寄存器值可知得知崩溃发生时的函数、出错指令。但是错误有可能是它的调用者引入的,所以还要找出函数的调用关系。由于内核配置了
CONFIG_FRAME_POINTER,当出现 Oops 信息时,会打印栈回溯信息。如果内核没有配置
CONFIG_FRAME_POINTER,这时可以自己分析栈信息,找到函数的调用关系。
(1)栈的作用
一个程序包含代码段、数据
段、BSS 段、堆、栈;其中数据段用来中存储初始值不为 0 的全局数据,BSS 段用来存储初始值为 0
的全局数据,堆用于动态内存分配,栈用于实现函数调用、存储局部变量。被调用函数在执行之前,它会将一些寄存器的值保存在栈中,其中包括返回地址寄存器
lr。如果知道了所保存的 lr 寄存的值,那么就可以知道它的调用者是谁。在栈信息中,一个函数一个函数地往上找出所有保存的 lr
值,就可以知道各个调用函数,这就是栈回溯的原理。
(2)栈回溯实例分析
仍以前面的 LCD 驱动程序为例,使用上面的 Oops 信息的栈信息进行分析,栈信息如下:
- Stack: (0xc3823f30 to 0xc3824000)
- 3f20: 00000000 c01d2e7c c0440d18 c042d178
- 3f40: 0000000c c042d178 c042d1ac c0440d18 c38a0840 c01d3068 00000000 c01d300c
- 3f60: c0440d18 c01d24e8 c3804938 c3847330 00000000 00000000 c0440d18 c01d1d48
- 3f80: c03a1506 c03a1506 00000001 c0022dd4 00000000 c0440d18 c0018f84 00000000
- 3fa0: 00000000 c01d3334 c0022dd4 00000000 00000000 c0018f84 00000000 c0018f90
- 3fc0: c0022dd4 c002e37c c0018f84 c03c5ab3 c0457880 c0022fc8 c0022dd4 00000000
- 3fe0: 00000000 00000000 00000000 c00083f8 00000000 c002fe54 00000000 00000000
- 根据 pc 寄存器值找到第一个函数,确定它的栈大小,确定调用函数。
从 Oops 信息
- PC is at s3c2410fb_probe+0xc/0x18
- LR is at platform_drv_probe+0x18/0x1c
- pc : [<c0018f78>] lr : [<c01d3f88>] psr: a0000013
- sp : c3823f30 ip : c3842e7c fp : 00000000
- r10: 00000000 r9 : 00000000 r8 : c0445008
- r7 : c38a0840 r6 : c0440d18 r5 : c042d178 r4 : 00000000
- r3 : 00001234 r2 : 00000000 r1 : 00000000 r0 : c042d170
可知 pc 值为 c0018f78,使用它在内核反汇编程序 vmlinux.dis 中可以知道它位于 s3c2410fb_probe 函数内。
- c0018f6c <s3c2410fb_probe>:
- c0018f6c: e3a02000 mov r2, #0 ; 0x0
- c0018f70: e59f3008 ldr r3, [pc, #8] ; c0018f80 <s3c2410fb_probe+0x14>
- c0018f74: e1a01002 mov r1, r2
- c0018f78: e5823000 str r3, [r2] <===========出错指令
- c0018f7c: eafffe92 b c00189cc <s3c24xxfb_probe>
- c0018f80: 00001234 .word 0x00001234
lr存放的是函数返回值地址,为c01d3f88,根据这个地址,搜索内核反汇编程序 vmlinux.dis ,可知它位于:
- c01d3f70 <platform_drv_probe>:
- c01d3f70: e92d4010 push {r4, lr}
- c01d3f74: e1a03000 mov r3, r0
- c01d3f78: e5933044 ldr r3, [r3, #68]
- c01d3f7c: e2400008 sub r0, r0, #8 ; 0x8
- c01d3f80: e1a0e00f mov lr, pc
- c01d3f84: e513f014 ldr pc, [r3, #-20]
- c01d3f88: e8bd8010 pop {r4, pc}
也就是说,函数s3c2410fb_probe() 被platform_drv_probe()调用。再看platform_drv_probe()的反汇编代码,期中
- c01d3f70: e92d4010 push {r4, lr}
栈中存放的是 r4, lr
对应
- Stack: (0xc3823f30 to 0xc3824000)
- 3f20: 00000000 c01d2e7c c0440d18 c042d178
- 3f40: 0000000c c042d178 c042d1ac c0440d18 c38a0840 c01d3068 00000000 c01d300c
- 3f60: c0440d18 c01d24e8 c3804938 c3847330 00000000 00000000 c0440d18 c01d1d48
- 3f80: c03a1506 c03a1506 00000001 c0022dd4 00000000 c0440d18 c0018f84 00000000
- 3fa0: 00000000 c01d3334 c0022dd4 00000000 00000000 c0018f84 00000000 c0018f90
- 3fc0: c0022dd4 c002e37c c0018f84 c03c5ab3 c0457880 c0022fc8 c0022dd4 00000000
- 3fe0: 00000000 00000000 00000000 c00083f8 00000000 c002fe54 00000000 00000000
其中,lr对应的值为c01d2e7c,用此值检索vmlinux.dis,位于
- c01d2d34 <driver_probe_device>:
- c01d2d34: e92d40f7 push {r0, r1, r2, r4, r5, r6, r7, lr}
- c01d2d38: e5d13028 ldrb r3, [r1, #40]
- c01d2d3c: e1a05001 mov r5, r1
- ....
- c01d2e7c: e2504000 subs r4, r0, #0 ; 0x0
- c01d2e80: 1a000016 bne c01d2ee0 <driver_probe_device+0x1ac>
- c01d2e84: e1a00005 mov r0, r5
- c01d2e88: ebffff6e bl c01d2c48 <driver_bound>
可知,platform_drv_probe()被driver_probe_device()调用,再用同样的方法就可以找出所有函数调用关系。
附:
arm-none-eabi-objdump -Dz -S vmlinux >linux.dump
值得注意的是,arm-none-eabi-objdump的参数-S表示尽可能的把原来的代码和反汇编出来的代码一起呈现出来,-S参数需要结合 arm-linux-gcc编译参数-g,才能达到反汇编时同时输出原来的代码。所以,我在linux内核代码根目录的Makefile中增加-g编译参 数:
KBUILD_CFLAGS := -g -Wall -Wundef -Wstrict-prototypes -Wno-trigraphs
-fno-strict-aliasing -fno-common
-Werror-implicit-function-declaration
-Wno-format-security
-fno-delete-null-pointer-checks
修改Makefile后,重新编译内核,在根目录中生成的vmlinux文件就会包含了原来的代码信息,这时再执行arm-none-eabi-objdump -Dz -S vmlinux >linux.dump需要数个小时的时间。