zoukankan      html  css  js  c++  java
  • 最常见的5个导致 RAC 实例崩溃的问题

    适用于:

    OracleDatabase - Enterprise Edition - 版本11.2.0.1 和更高版本
    本文档所含信息适用于所有平台

    用途

    本文档的目的是总结可能导致 RAC 实例崩溃的最常见的5种问题以及较早版本(如 10.2.0.5)报告的常见问题。

    适用范围

    问题 1 到 5 仅适用于 11gR2 RAC。<版本>的问题 仅适用于提及的版本。

    详细信息

    问题 1:ORA-29770 LMHB终止实例

    症状:

    LMON (ospid:31216) waits for event 'control file sequential read' for 88 secs.
    Errors in file /Oracle/base/diag/rdbms/prod/prod3/trace/prod3_lmhb_31304.trc(incident=2329):
    ORA-29770: global enqueue process LMON (OSID 31216) is hung for more than 70seconds
    LMHB (ospid: 31304) is terminating the instance.


    LMON (ospid: 8594) waits for event 'control file sequential read' for 118 secs.
    ERROR: LMON is not healthy and has no heartbeat.
    ERROR: LMHB (ospid: 8614) is terminating the instance.

    可能的原因:

      LMON 等待读取控制文件,导致LMHB 使实例崩溃
    Bug 11890804 LMHB crashes instance withORA-29770 after long "control file sequential read" waits

    解决方案:

    Bug 8888434 已在 11.2.0.2 及以上版本 中得到修正
    Bug 11890804 已在 11.2.0.3及以上版本中得到修正
    请参阅 Document 1197674.1, Document 8888434.8 和 Document 11890804.8 了解详细信息

     

    问题 2:ORA-481导致的实例崩溃

    症状:

    1. PMON (ospid:12585): terminating the instance due to error 481
    LMON 进程跟踪文件显示:
    Begin DRM(107) (swin 0)
    * drm quiesce <kjxgmrcfg: Reconfiguration started, type 6 

    LMS<x> 进程跟踪文件显示:
    2011-07-05 10:53:44.218905 : Start affinity expansion for pkey 81885.0
    2011-07-05 10:53:44.498923 : Expand failed: pkey 81885.0, 229 shadowstraversed, 153 replayed 1 retries

    2. PMON (ospid: 4915562): terminating the instance due to error 481
    Sat Oct 01 19:21:37 2011
    System state dump requested by (instance=2, osid=4915562 (PMON)),summary=[abnormal instance termination].

    可能的原因:

    1. Bug 11875294 LMS gets stuck during DRM,Instance crashed with ORA-481
    2. HAIP 在部分集群节点上离线,或者 HAIP 在所有集群节点上都在线,但是无法通过其进行通信,例如ping操作失败。

    解决方案:

    1. Bug 11875294 已在 11.2.0.3 中得到修正,绕过问题的方法是:
    通过设置
    _gc_read_mostly_locking=FALSE 来禁用read  mostly。
    请参阅 < Document 11875294.8> 了解详细信息。

    2. 修正 HAIP 问题,请参阅 Document 1383737.1

     

    问题 3:ORA-600[kjbmprlst:shadow]、ORA-600[kjbrref:pkey]、ORA-600[kjbmocvt:rid]、[kjbclose_remaster:!drm]、ORA-600 [kjbrasr:pkey] 导致的实例崩溃

    症状:

    由于 ORA-600[kjbmprlst:shadow]、ORA-600[kjbrref:pkey]、ORA-600[kjbmocvt:rid]、[kjbclose_remaster:!drm]或 ORA-600 [kjbrasr:pkey] 导致 RAC 实例崩溃

    可能的原因:

    这一组 ORA-600 与 DRM(dynamic resourceremastering)消息或 read mostly 锁有关。涉及多个 bug,包括:
    Document 9458781.8 Missing close message tomaster leaves closed lock dangling crashing the instance with assorted Internalerror 
    Document 9835264.8 ORA-600 [kjbrasr:pkey] /ORA-600 [kjbmocvt:rid] in RAC with dynamic remastering
    Document 10200390.8 ORA-600[kjbclose_remaster:!drm]in RAC with fix for 9979039
    Document 10121589.8 ORA-600[kjbmprlst:shadow] can occur in RAC
    Document 11785390.8 Stack corruption /incorrect behaviour possible in RAC
    Document 12408350.8 ORA-600 [kjbrasr:pkey]in RAC with read mostly locking
    Document 12834027.8 ORA-600[kjbmprlst:shadow] / ORA-600 [kjbrasr:pkey] with RAC read mostly locking

    解决方案:

    上述大部分 bug 都在 11.2.0.3 中得到了修正,安装 11.2.0.3 补丁集应该可以避免这些 bug,除了 Bug 12834027,此 bug 将在 12.1 中进行修正。绕过这个 bug 的方法是:

    禁用 DRM

    禁用read mostly
    例如:设置 "_gc_read_mostly_locking"=FALSE

    有关每个 bug 的说明和解决方案,请参阅上述相关文档。

     

    问题 4:启用flash cache后产生kcldle/kclfplz/kcbbxsv_l2/kclfprm,导致实例崩溃

    症状:

    警报日志中报告了 ORA-7445[kcldle]
    ORA-7445[kclfplz]
    ORA-7445[kcbbxsv_12]
    ORA-744[kclfprm]

    可能的原因:

    它们是由不同的 bug 引起的,而这些bug都归结为 基础bug Bug 12337941 Dumps on kcldle / kclfplz /kcbbxsv_l2 / kclfprm using flash

    解决方案:

    此 bug 已在 11.2.0.3 中得到修正,请安装补丁集或使用以下方法绕过这个问题:禁用 Flash Cache
    请参阅 Document 12337941.8 ,了解更多详细信息

     

    问题 5:LMS报 ORA-600[kclpdc_21]错误,实例崩溃

    症状:

    警报日志中报告了ORA-600[kclpdc_21]

    可能的原因:

    Document 10040035.8  LMS gets ORA-600[kclpdc_21] and instance crashes 

    解决方案:

    此 bug 已在 11.2.0.3 中得到修正

     

    10.2.0.5的问题

    症状:

    1. LMS进程 报ORA-600[kjccgmb:1]错误导致实例崩溃, LMS<n>:terminating instance due to error 484
    2. 由于以下原因导致实例崩溃:
    Received an instance abort message from instance 2 (reason 0x0)
    Please check instance 2 alert and LMON trace files for detail.
    LMD0: terminating instance due to error 481

    可能的原因:

    1. Bug 11893577 - LMD CRASHED WITH ORA-00600 [KJCCGMB:1] 
    2. Bug 9577274 - 1OFF:UNABLE TO VIEW REQUEST OUTPUT AND LOG AFTER APPLYING FIXTO ISSUE IN BUG 9400041

    解决方案:

    1. 对于 10.2.0.5.0,安装合并的补丁 12616787
    2. 对于 10.2.0.5.5,安装合并的补丁 13470618
    撰写本文时,只有特定平台才有可用补丁。对于任何 10.2.0.5.x 版本,不需要同时安装上述两个补丁。

    最初源于dave总结,感谢dave。  dave大神博客 :  http://blog.csdn.net/tianlesoftware  

  • 相关阅读:
    图像检索(image retrieval)- 11
    图像检索(image retrieval)- 10相关
    Mock.js简易教程,脱离后端独立开发,实现增删改查功能
    Azure Monitor (3) 对虚拟机磁盘设置自定义监控
    Azure Monitor (1) 概述
    Azure SQL Managed Instance (2) 备份SQL MI
    Azure Virtual Network (17) Private Link演示
    Azure Virtual Network (16) Private Link
    Azure Virtual Network (15) Service Endpoint演示
    Azure Virtual Network (14) Service Endpoint服务终结点
  • 原文地址:https://www.cnblogs.com/andy6/p/6444688.html
Copyright © 2011-2022 走看看