zoukankan      html  css  js  c++  java
  • 一次BI系统事故教训

      描述: 突然之间,BI服务无法对外提供服务,整个BI+报表系统是ORACLE11G+OBIEE11G+Weblogic11G+Informatica8.6 构成,整个系统几乎是一己之力完成到上线。昨天甲方人员打电话给我,突然之间所有BI的站点,报表都无法登陆,查看后台服务,都正常。于是建议对方重启。还是没有解决,于是仔细分析日志。最终定位到问题所在。

       1.  OBIEE11G sawserver 的7001 anaytics web界面登陆,密码用户甲方确认无误。登陆还是现实密码或用户名错误 。 问题有点不对劲

       2. 试用OBIEE11G Administrator Tool 连接 在线逻辑模型,登陆显示报错 。

        [nQSError: 37001]无法连接 Oracle BI Server 实例

       3. 查看ORACLE BI Server  服务, opmnctl status   所有服务都处于激活状态。  可以排除 BI Server 端口占用的问题, 捉摸着是中间件的bi_platform中的服务有些可以崩溃了。 进一步查看 ORACLE BI Server 的日志 。

                有如下报错

          [2013-04-18T14:35:17.000+00:00] [OracleBIServerComponent] [NOTIFICATION:1] [] [] [ecid: 00iEJCMVhq4F0Fg5xFDCiW0000Xo000000] [tid: ac8]  [85004] MDX Member Name Cache subsystem recovered entries: 0, size: 0 bytes.
    [2013-04-18T14:35:17.000+00:00] [OracleBIServerComponent] [ERROR:1] [] [] [ecid: 00iEJCMVhq4F0Fg5xFDCiW0000Xo000000] [tid: ac8]  [13026] Error in getting roles from BI Security Service:  'Error Message From BI Security Service: PolicySet Invalid: WSM-06102 PolicyReference 策略引用 URI "oracle/wss_username_token_service_policy" 无效。 '
    [2013-04-18T14:35:17.000+00:00] [OracleBIServerComponent] [NOTIFICATION:1] [] [] [ecid: 00iEJCMVhq4F0Fg5xFDCiW0000Xo000000] [tid: ac8] nqsserver:    Clustered Oracle BI Server started.  Version: 11.1.1.6.0.120104.0152.000.
    [2013-04-18T14:35:17.000+00:00] [OracleBIServerComponent] [NOTIFICATION:1] [] [] [ecid: 00iEJCMVhq4F0Fg5xFDCiW0000Xo000000] [tid: 94c]  [43071] A connection with Cluster Controller bi-4lna2lrlna7w:9706 was established.
    [2013-04-18T14:35:39.000+00:00] [OracleBIServerComponent] [ERROR:1] [] [] [ecid: 00iEJCO8qy8F0Fg5xFDCiW0000Xo000003] [tid: a6c] Error Message From BI Security Service: PolicySet Invalid: WSM-06102 PolicyReference 策略引用 URI "oracle/wss_username_token_service_policy" 无效。
    [2013-04-18T14:35:39.000+00:00] [OracleBIServerComponent] [ERROR:1] [] [] [ecid: 00iEJCO8qy8F0Fg5xFDCiW0000Xo000003] [tid: a6c]  [nQSError: 43126] Authentication failed: invalid user/password.

             4.可以定位问题了,基本是由于

        This issues occur, when the application wsm-pm is not running. To resolve this, login to EM -> Application Deployments -> Internal Applications. The two applications wsm-pm on AdminServer and managed server should be up and running.

             5.进入Weblogic Em 查看 WSM-PM服务 ,该服务处于崩溃状态。 重新启动。报错如下:

            RDBMS Error,ORA-28001: the password has expired。 恍然大悟,非天灾人祸也。

            6. Oracle 11G 有个新特性可以设置密码过期时间,

            通过SQL查看

          SQL> conn DEV1_MDS/Admin123
    ERROR:
    ORA-28001: the password has expired
           通过SQL查看

           SQL> select * from dba_profiles where profile='DEFAULT' AND resource_name='PASSW
    ORD_LIFE_TIME'
      2  ;

    PROFILE                        RESOURCE_NAME                    RESOURCE
    ------------------------------ -------------------------------- --------
    LIMIT
    ----------------------------------------
    DEFAULT                        PASSWORD_LIFE_TIME               PASSWORD
    360

    更改 DEV1_MDS 的口令
    新口令:
    重新键入新口令:
    口令已更改
    已连接。
    SQL> conn DEV1_BIPLATFORM/Admin123
    ERROR:
    ORA-28001: the password has expired


    更改 DEV1_BIPLATFORM 的口令
    新口令:
    重新键入新口令:
    口令已更改
    已连接。

        7.重新启动 wms-em 服务,启动成功。

        8.登陆 BIEE Administrator Tool ,登陆成功.

        9.登陆报表和BI系统,登陆成功。

       

        总结:这个案例比较的典型,进入大数据时代的集成系统的问题。 原来的OLTP或者BS的系统,问题比较单一,瓶颈比较单一,大部分瓶颈问题集中在数据库。

    现在进入大数据时代,是个多数据源整合(分布式系统),业务单元网状集成的状况,不是说数据库DBA和中间件不重要了,是各个环节都有可能成为问题环境,要做到 开发运维一条心 ,还真不容易,扯的有点远,废话有点多。 总之跟我有点关系,当初在开发完成交付时,没有强调这个过期密码的问题 。最近出问题是必然娘的。

  • 相关阅读:
    Extjs5.0中的新特性
    Extjs4中的常用组件:Grid、Tree和Form
    Extjs4中的布局
    Extjs4中的store
    [IIS]IIS扫盲(三)
    [IIS]IIS扫盲(二)
    [IIS]IIS扫盲(一)
    [IIS]在CMD中IIS的使用
    检索 COM 类工厂中 CLSID 为 {00024500-0000-0000-C000-000000000046} 的组件时失败
    [SQL]向3个表插入数据的存储过程 和 C# 代码
  • 原文地址:https://www.cnblogs.com/jerryxing/p/3028660.html
Copyright © 2011-2022 走看看