zoukankan      html  css  js  c++  java
  • coredump详解

    什么是coredump

      当应用程序宕掉了,需要定位故障,对应程序由于各种异常或者bug导致在运行过程中异常退出或者中止,并且在满足一定条件下会产生一个叫做core的文件。
         通常情况下,core文件会包含了程序运行时的内存,寄存器状态,堆栈指针,内存管理信息还有各种函数调用堆栈信息等,我们可以理解为是程序工作当前状态存储生成的一个文件,许多的程序出错的时候都会产生一个core文件,通过工具分析这个文件,我们可以定位到程序异常退出的时候对应的堆栈调用等信息,找出问题所在并进行及时解决。

    core文件的开启或关闭

    查看core文件是否被启用

    [root@test conf]# ulimit -c                ## 返回0表示未启用。unlimited表示启用
    unlimited

    开启core文件及设置文件大小

    [root@test conf]# ulimit -c 2048         # 2048个block,1个block为512bytes
    [root@test conf]# ulimit -c unlimited    # 取消大小限制,当前会话生效。

    显示当前所有limit信息

    [root@test conf]# ulimit -a
    core file size          (blocks, -c) unlimited
    data seg size           (kbytes, -d) unlimited
    scheduling priority             (-e) 0
    file size               (blocks, -f) unlimited
    pending signals                 (-i) 7197
    max locked memory       (kbytes, -l) 16384
    max memory size         (kbytes, -m) unlimited
    open files                      (-n) 65535
    pipe size            (512 bytes, -p) 8
    POSIX message queues     (bytes, -q) 819200
    real-time priority              (-r) 0
    stack size              (kbytes, -s) 8192
    cpu time               (seconds, -t) unlimited
    max user processes              (-u) 7197
    virtual memory          (kbytes, -v) unlimited
    file locks                      (-x) unlimited

    ulimit命令参数

    命令参数 描述 举例
    -H 设置硬资源限制,一旦设置不能增加。 ulimit -Hs 64;限制硬资源,线程栈大小为 64K。
    -S 设置软资源限制,设置后可以增加,但是不能超过硬资源设置。 ulimit -Sn 32;限制软资源,32 个文件描述符。
    -a 显示当前所有的 limit 信息  
    -c 最大的 core 文件的大小, 以 blocks 为单位  ulimit -c unlimited; 对生成的 core 文件的大小不进行限制
    -d 进程最大的数据段的大小,以 Kbytes 为单位 ulimit -d unlimited;对进程的数据段大小不进行限制
    -f 进程可以创建文件的最大值,以 blocks 为单位 ulimit -f 2048;限制进程可以创建的最大文件大小为 2048 blocks
    -l 最大可加锁内存大小,以 Kbytes 为单位 ulimit -l 32;限制最大可加锁内存大小为 32 Kbytes
    -m 最大内存大小,以 Kbytes 为单位 ulimit -m unlimited;对最大内存不进行限制
    -n 可以打开最大文件描述符的数量 ulimit -n 128;限制最大可以使用 128 个文件描述符
    -p 管道缓冲区的大小,以 Kbytes 为单位 ulimit -p 512;限制管道缓冲区的大小为 512 Kbytes
    -s 线程栈大小,以 Kbytes 为单位 ulimit -s 512;限制线程栈的大小为 512 Kbytes
    -t 最大的 CPU 占用时间,以秒为单位 ulimit -t unlimited;对最大的 CPU 占用时间不进行限制
    -u 用户最大可用的进程数 ulimit -u 64;限制用户最多可以使用 64 个进程
    -v 进程最大可用的虚拟内存,以 Kbytes 为单位 ulimit -v 200000;限制最大可用的虚拟内存为 200000 Kbytes

    配置core永久生效

    第一种方式:修改/etc/profile

    将ulimit -S -c 0 > /dev/null 2>&1中的0改成unlimited
    如果没有这行,添加一下就好了,ulimit -S -c unlimited > /dev/null 2>&1
    source一下/etc/profile。普通用户需要该用户的环境变量文件

    第二种方式:修改/etc/security/limits.conf文件来设置,需要root权限

    [root@master ~]# vim /etc/security/limits.conf
    #<domain>      <type>  <item>         <value>
    *               soft    core            unlimited

    core文件位置

    core文件默认的存储位置与对应的可执行程序在同一目录下,文件名是core,可以通过下面的命令看到core文件的存在位置:

    [root@test conf]# cat  /proc/sys/kernel/core_pattern
    |/usr/lib/systemd/systemd-coredump %P %u %g %s %t %c %h %e

    注意:这里是指在进程当前工作目录的下创建。通常与程序在相同的路径下。但如果程序中调用了chdir函数,则有可能改变了当前工作目录。这时core文件创建在chdir指定的路径下。有好多程序崩溃了,我们却找不到core文件放在什么位置。和chdir函数就有关系。当然程序崩溃了不一定都产生 core文件

    修改core文件存储位置

    [root@test ~]# mkdir /data/coredump -p
    
    [root@test ~]# echo “/data/coredump/core”> /proc/sys/kernel/core_pattern

    命名core文件

    缺省情况下,内核在coredump时所产生的core文件放在与该程序相同的目录中,并且文件名固定为core。很显然,如果有多个程序产生core文件,或者同一个程序多次崩溃,就会重复覆盖同一个core文件,因此我们有必要对不同程序生成的core文件进行分别命名。 

    1)/proc/sys/kernel/core_uses_pid可以控制core文件的文件名中是否添加pid作为扩展。文件内容为1,表示添加pid作为扩展名,生成的core文件格式为core.xxxx;为0则表示生成的core文件同一命名为core。可通过以下命令修改此文件:

    [root@test ~]# cat /proc/sys/kernel/core_uses_pid
    1

    2)proc/sys/kernel/core_pattern可以控制core文件保存位置和文件名格式,可通过以下命令修改此文件:

    [root@test ~]# echo "/corefile/core-%e-%p-%t" > /proc/sys/kernel/core_pattern
    # 可以将core文件统一生成到/corefile目录下,产生的文件名为core-命令名-pid-时间戳

    core文件参数列表

    %% - 单个%字符
    %p - 添加pid
    %u - 添加当前uid
    %g - 添加当前gid
    %s - 添加导致产生core的信号
    %t - 添加core文件生成时的unix时间
    %h - 添加主机名
    %e - 添加程序文件名

    造成程序core的原因

    造成程序coredump的原因有很多:

    (1)内存访问越界

       a) 由于使用错误的下标,导致数组访问越界。
       b) 搜索字符串时,依靠字符串结束符来判断字符串是否结束,但是字符串没有正常的使用结束符。
       c) 使用strcpy, strcat, sprintf, strcmp,strcasecmp等字符串操作函数,将目标字符串读/写爆。应该使用strncpy, strlcpy, strncat, strlcat, snprintf, strncmp, strncasecmp等函数防止读写越界。

     (2)多线程程序使用了线程不安全的函数

     应该使用下面这些可重入的函数,它们很容易被用错:
    asctime_r(3c) 、gethostbyname_r(3n) 、getservbyname_r(3n)、ctermid_r(3s) 、gethostent_r(3n) 、getservbyport_r(3n)、
    ctime_r(3c) 、getlogin_r(3c)、getservent_r(3n) 、fgetgrent_r(3c) 、getnetbyaddr_r(3n) 、getspent_r、(3c)fgetpwent_r(3c)、getnetbyname_r(3n)、
    getspnam_r(3c)、 fgetspent_r(3c)、getnetent_r(3n) 、gmtime_r(3c)、 gamma_r(3m) 、getnetgrent_r(3n) 、lgamma_r(3m) 、
    getauclassent_r(
    3)、getprotobyname_r(3n) 、localtime_r(3c) 、getauclassnam_r(3) 、etprotobynumber_r(3n)、nis_sperror_r(3n) 、
    getauevent_r(3) 、getprotoent_r(3n) 、rand_r(3c) 、getauevnam_r(3)、getpwent_r(3c) 、readdir_r(3c) 、getauevnum_r(3) 、getpwnam_r(3c) 、
    strtok_r(3c)、 getgrent_r(3c)、getpwuid_r(3c) 、tmpnam_r(3s) 、getgrgid_r(3c) 、getrpcbyname_r(3n)、 ttyname_r(3c)、getgrnam_r(3c) 、
    getrpcbynumber_r(3n) 、gethostbyaddr_r(3n) 、getrpcent_r(3n)

      (3)多线程读写的数据未加锁保护:

    对于会被多个线程同时访问的全局数据,应该注意加锁保护,否则很容易造成coredump。

    (4)非法指针:

     a) 使用空指针;
     b) 随意使用指针转换。一个指向一段内存的指针,除非确定这段内存原先就分配为某种结构或类型,或者这种结构或类型的数组,否则不要将它转换为这种结构或类型的指针,而应该将这段内存拷贝到一个这种结构或类型中,再访问这个结构或类型。这是因为如果这段内存的开始地址不是按照这种结构或类型对齐的,那么访问它时就很容易因为bus error而core dump。

    (5)堆栈溢出:

     不要使用大的局部变量(因为局部变量都分配在栈上),这样容易造成堆栈溢出,破坏系统的栈和堆结构,导致出现莫名其妙的错误
  • 相关阅读:
    winserver-性能监视器计数器介绍
    winserver-性能监视器
    winserver-凭据管理(credential manager)
    The operation could not be performed because OLE DB provider "SQLNCLI11" for linked server "server_name" was unable to begin a distributed transaction.
    pandas-排序
    SQL SERVER-跟踪标记
    WinSCP
    SSL证书
    Powershell-修改文件夹权限
    fiddler 插件开发
  • 原文地址:https://www.cnblogs.com/zh-dream/p/12773809.html
Copyright © 2011-2022 走看看