zoukankan      html  css  js  c++  java
  • VERITA Netbackup日常巡检详细说明

    VERITA备份日常监控

    一. 相关检查方法、命令

    1.1 启动NBU的图形管理界面:
    /usr/openv/netbackup/bin/jnbSA &
    1.2字符界面命令:
    1.2.1catlog 日志备份时间
    bpdbjobs |grep -i cata|grep " 0 " |head -1|awk '{print "/usr/openv/netbackup/bin/admincmd/bpdbjobs -all_columns -jobid ",$1}'
    1.2.2文件系统使用率
    df -h
    1.2.3空白磁带数目是否充足
    available_media |grep -i tld |grep -i ava|wc -l
    1.2.4最近失败的200条作业,备份时间过长的也需要注意
    bpdbjobs |grep -v " 0 " |head -200
    1.2.6驱动器状态
    vmoprcmd -d

    二. 日常检查流程

    2.1确认VERITAS NBU进程状态
    2.2确认备份任务状态
    2.3确认磁带、磁带机的工作状态
    2.4确认文件系统状态

    2.1检查NBU进程状态:

    需要每天监控activity monitor,确认在备份服务器上运行的进程有:avrd、vmd、tldd、ltid、bprd、nbdbd、bpdbm、bpsched、bpjobd。
    如果前四个进程avrd、vmd、tldd、ltid有一个没有运行,则备份系统工作不正常。
    简单的处理方法:重新启动NBU服务器进程
    方法如下:
    a)退出NBU的java管理界面,以root身份在命令行状态下输入:netbackup stop
    b)使用bpps –a检查上述进程的状态
    c)如果进程没有被kill干净,继续执行netbackup stop命令。
    d)如果无法结束所有的进程,需要使用bp.kill_all来进行终结。
    e)当使用bpps –a看到没有NBU的进程输出时,表明所有的NBU进程已经结束。使用命令:netbackup start启动NBU进程,并用bpps –a确认。
    f)如果问题依然存在,请与厂家联系检查VERITAS工作状态。

    2.2检查备份任务状态。

    需要每天监控activity monitor,观察已经发生备份的任务状态返回值,返回值为0表明备份成功;如果返回值不为0,表明备份失败。对于数据库Archivelog的备份,由于备份的频率目前设置为每一小时一次,因此如果在下面的备份作业中,如果Archivelog的备份成功,可以忽略上面错误的备份。
    典型的备份错误有:

    a)
    Archivelog备份返回值为1,而且后续的备份均返回1。
    通常情况,需要进行Oracle 数据库的Archivelog同步。

    Oracle数据库Archivelog同步的方法为:
    以Oracle数据库用户登录到Oracle数据库服务上,通过RMAN来运行下面的命令:
    $ su – oracle
    $ rman
    RMAN> connect target /
    RMAN> change archivelog all validate;
    RMAN> exit

    b)
    备份作业返回值为41、54。
    检查服务器网络工作状态:
    首先找到备份失败的服务器IP地址,确认IP地址可以ping通。
    使用telnet工具,进行如下操作:
    telnet 服务器IP地址 13782
    如果返回信息如下,表明VERITAS NBU通信正常。
    Trying...
    Connected to 服务器IP地址.
    Escape character is '^]'.
    如果系统直接返回到命令行状态,请检查问题服务器的service和inetd设置,确保bpcd进程存在。
    并使用如下命令检查bpcd的工作状态:
    netstat |grep bpcd

    c)
    备份作业返回96、219。
    请检查磁带机、磁带的工作状态

    2.3检查磁带和磁带机状态:

    磁带机和磁带常见的错误为96、219,需要确认磁带机状态是否up,磁带库是否闪红灯,使用bpmedialist命令查看是否磁带已经写满或者处于frozen状态,磁带是否卡在了磁带机里。
    如果磁带显示frozen,可以使用bpmedia –unfreeze –m labelid来清除此状态,如果磁带反复显示frozen,可能磁带坏,请与厂家联系磁盘检查。

    补充:可以在java界面中选择“Media and Device Management”来查看现在media分配的情况。
    观察磁带机工作状态的方式有2种:Java GUI界面和命令行。

    a)
    Java GUI界面方式:
    在Java GUI界面下,可以在Media and Device ManagementàDevice Monitor选项中,观察到磁带机的状态。例如磁带机正在使用中、磁带机DOWN、磁带机空闲等。

    b)
    命令行方式:
    使用命令行方式观察磁带机的状态,相关的命令有vmdareq、vmoprcmd。

    如果观察到磁带机DOWN,建议先检查是否有卡带现象。确定没有卡带现象后,可以做简单的磁带机UP操作。磁带机UP操作可以通过上面所述的Java GUI界面和命令行方式来执行。命令行方式举例如下:
    vmoprcmd –h hostID –up driveID
    其中,hostID是SSO服务器名称,driveID是磁带机的序号,目前备份系统中2台磁带机的序号取值为0和1。

    经过简单UP后,如果磁带机仍然出现DOWN现象,请与厂家联系解决。

    2.4检查文件系统状态

    在备份服务器和其它服务器上使用如下命令
    df –k
    确认文件系统有可以使用的空间。文件系统如果写满,备份系统将工作不正常。

    备注:
    如果经过了很长时间(如7,8个小时)一个备份任务一直处于active或者queued状态,同时显示此任务的字节数没有增长,需要把此任务kill掉。因为这样会阻止下一个任务的执行。


  • 相关阅读:
    关于数据库中浮点运算、保留小数和时间计算
    几个常用的操作
    数字转换为字符串
    Dll控件出错的处理办法
    小巧的服务程序源码(转)
    DELPHI中MDI子窗口的关闭和打开
    用Delphi创建服务程序
    Delphi如何获取QQ2010聊天窗口句柄?
    拖动Form上的图片,Form一起动
    仿药易通输入单位信息后如果没有则自动加入功能
  • 原文地址:https://www.cnblogs.com/yihr/p/9416283.html
Copyright © 2011-2022 走看看