###问题一则
碰到1个问题,netbackup 恢复数据库时候, 碰到如下问题。
OA 网段(测试所在的网段)
NBU 放在生产网段。
恢复是从 OA 网段 恢复数据库 大概跑了1个小时,700G 数据,把OA 带宽占满了。
生产网段 到OA 网段占满网络资源,导致 其他OA 网段 访问 其他生产网段 出现卡段。
netbackup 走的是网络。所以对其他网络 都是有挤占作用。
我们使用到zabbix 监控主机的 Outgoing network traffic 这一项目,可以清晰 看到 每个网卡的 网络流量的值
##感谢Zailar 查看所以police
https://vox.veritas.com/t5/NetBackup/how-do-I-get-the-policy-settings-for-netbackup/td-p/548067
echo "List all NBU policies"
/usr/openv/netbackup/bin/admincmd/bppllist > /tmp/output.txt
echo ""
echo "Get detail info on each policy"
echo ""
for i in `cat /tmp/output.txt`
do
echo "Get detail info on policy $i"
/usr/openv/netbackup/bin/admincmd/bppllist $i -U >> /tmp/outputpolicy.txt
#########感谢SAOP
VERITA Netbackup日常巡检详细说明
VERITA备份日常监控
一. 相关检查方法、命令
1.1 启动NBU的图形管理界面:
/usr/openv/netbackup/bin/jnbSA &
1.2字符界面命令:
1.2.1catlog 日志备份时间
bpdbjobs |grep -i cata|grep " 0 " |head -1|awk '{print "/usr/openv/netbackup/bin/admincmd/bpdbjobs -all_columns -jobid ",$1}'
1.2.2文件系统使用率
df -h
1.2.3空白磁带数目是否充足
available_media |grep -i tld |grep -i ava|wc -l
1.2.4最近失败的200条作业,备份时间过长的也需要注意
bpdbjobs |grep -v " 0 " |head -200
1.2.6驱动器状态
vmoprcmd -d
二. 日常检查流程
2.1确认VERITAS NBU进程状态
2.2确认备份任务状态
2.3确认磁带、磁带机的工作状态
2.4确认文件系统状态
2.1检查NBU进程状态:
需要每天监控activity monitor,确认在备份服务器上运行的进程有:avrd、vmd、tldd、ltid、bprd、nbdbd、bpdbm、bpsched、bpjobd。
如果前四个进程avrd、vmd、tldd、ltid有一个没有运行,则备份系统工作不正常。
简单的处理方法:重新启动NBU服务器进程
方法如下:
a)退出NBU的java管理界面,以root身份在命令行状态下输入:netbackup stop
b)使用bpps –a检查上述进程的状态
c)如果进程没有被kill干净,继续执行netbackup stop命令。
d)如果无法结束所有的进程,需要使用bp.kill_all来进行终结。
e)当使用bpps –a看到没有NBU的进程输出时,表明所有的NBU进程已经结束。使用命令:netbackup start启动NBU进程,并用bpps –a确认。
f)如果问题依然存在,请与厂家联系检查VERITAS工作状态。
2.2检查备份任务状态。
需要每天监控activity monitor,观察已经发生备份的任务状态返回值,返回值为0表明备份成功;如果返回值不为0,表明备份失败。对于数据库Archivelog的备份,由于备份的频率目前设置为每一小时一次,因此如果在下面的备份作业中,如果Archivelog的备份成功,可以忽略上面错误的备份。
典型的备份错误有:
a)
Archivelog备份返回值为1,而且后续的备份均返回1。
通常情况,需要进行Oracle 数据库的Archivelog同步。
Oracle数据库Archivelog同步的方法为:
以Oracle数据库用户登录到Oracle数据库服务上,通过RMAN来运行下面的命令:
$ su – oracle
$ rman
RMAN> connect target /
RMAN> change archivelog all validate;
RMAN> exit
b)
备份作业返回值为41、54。
检查服务器网络工作状态:
首先找到备份失败的服务器IP地址,确认IP地址可以ping通。
使用telnet工具,进行如下操作:
telnet 服务器IP地址 13782
如果返回信息如下,表明VERITAS NBU通信正常。
Trying...
Connected to 服务器IP地址.
Escape character is '^]'.
如果系统直接返回到命令行状态,请检查问题服务器的service和inetd设置,确保bpcd进程存在。
并使用如下命令检查bpcd的工作状态:
netstat |grep bpcd
c)
备份作业返回96、219。
请检查磁带机、磁带的工作状态
2.3检查磁带和磁带机状态:
磁带机和磁带常见的错误为96、219,需要确认磁带机状态是否up,磁带库是否闪红灯,使用bpmedialist命令查看是否磁带已经写满或者处于frozen状态,磁带是否卡在了磁带机里。
如果磁带显示frozen,可以使用bpmedia –unfreeze –m labelid来清除此状态,如果磁带反复显示frozen,可能磁带坏,请与厂家联系磁盘检查。
补充:可以在java界面中选择“Media and Device Management”来查看现在media分配的情况。
观察磁带机工作状态的方式有2种:Java GUI界面和命令行。
a)
Java GUI界面方式:
在Java GUI界面下,可以在Media and Device ManagementàDevice Monitor选项中,观察到磁带机的状态。例如磁带机正在使用中、磁带机DOWN、磁带机空闲等。
b)
命令行方式:
使用命令行方式观察磁带机的状态,相关的命令有vmdareq、vmoprcmd。
如果观察到磁带机DOWN,建议先检查是否有卡带现象。确定没有卡带现象后,可以做简单的磁带机UP操作。磁带机UP操作可以通过上面所述的Java GUI界面和命令行方式来执行。命令行方式举例如下:
vmoprcmd –h hostID –up driveID
其中,hostID是SSO服务器名称,driveID是磁带机的序号,目前备份系统中2台磁带机的序号取值为0和1。
经过简单UP后,如果磁带机仍然出现DOWN现象,请与厂家联系解决。
2.4检查文件系统状态
在备份服务器和其它服务器上使用如下命令
df –k
确认文件系统有可以使用的空间。文件系统如果写满,备份系统将工作不正常。
备注:
如果经过了很长时间(如7,8个小时)一个备份任务一直处于active或者queued状态,同时显示此任务的字节数没有增长,需要把此任务kill掉。因为这样会阻止下一个任务的执行。
三NBU常用的命令
- 在命令提示符下输入available_media,查看当前磁带使用情况
- 在命令提示符下输入bpmedialist命令查看当前磁带使用情况及是否冻结
- 在命令提示符号下输入bpexpdate –m a00001 –d 0来使磁带过期
- 在命令提示符号下输入bpmedia –unfreeze –m a00001来使磁带解除冻结状态
- 在命令提示符号下输入vmquery –m a00001来查看磁带的归属情况
- 在命令提示符号下输入vmquery –deassignbyid a00001 4 0来取消磁带的分配日期
- 在命令提示符号下输入bprecover –l a00001 –d hcart来查看catalog磁带中的内容
- 在命令提示符号下输入bprecover –r a00001 –d hcart来恢复catalog
- 在命令提示符号下输入bpexpdate –backupid wbs_1039674374 –d 0来删除一个备份影像,其中wbs_1039674374是backupid,可以通过report中的Images on Media报告来查看backupid
- 如何收集NBU备份服务器的相关信息
查看并导出所有备份策略内容到c:bppllist1.txt:
C:Program FilesVERITASNetBackupbinadmincmd>bppllist -allpolicies -L -verbose >c:bppllist1.txt - 列出当前存储单元并导出内容到c:bpstulist1.txt:
C:Program FilesVERITASNetBackupbinadmincmd>bpstulist -L -verbose >c:bpstulist1.txt - 查看磁带使用情况并导出内容到c:available_media.txt:
C:Program FilesVERITASNetBackupbingoodies>available_media >c:available_media.txt - 查看磁带归属情况:
显示所有卷并导出内容到c:vmquery.txt:
C:Program FilesVERITASVolmgrbin>vmquery -a >c:vmquery.txt - 列出卷池并导出内容到c:vmpool.txt:
C:Program FilesVERITASVolmgrbin>vmpool -listall >c:vmpool.txt - 列出license导出内容到c:nbulicense.txt:
C:Program FilesVERITASNetBackupbinadmincmd>bpminlicense -list_keys> c:nbulicense.txt
其它信息请用nbsupport170工具收集。方法是解压缩nbsupport170
.zip到备份服务器上某个临时文件夹,运行nbsupport.exe,然后在当前文件夹下的output中会生成一个.cab打包文件。所有与备份服务器运行相关的信息文件全在里面。
16、bpexpdate过期磁带,报”requested media id is in use”错误解决办法
如果你确认这个media并没有在使用,可以手工释放这个media占用的资源
首先使用/usr/openv/netbackup/bin/admincmd/nbrbutil -dump命令得到磁带占用资源的id
nbumaster:~ # /usr/openv/netbackup/bin/admincmd/nbrbutil -dump
Allocation Requests
(AllocationRequestSeq )
MDS allocations in EMM:
MdsAllocation: allocationKey=91666 jobType=1 mediaKey=4000261 mediaId=YZ5350 driveKey=2000012 driveName=HP.ULTRIUM4-SCSI.004 drivePath=/dev/nst0 stuName=nbumaster-hcart-robot-tld-0 masterServerName=nbumaster mediaServerName=nbumaster ndmpTapeServerName= diskVolumeKey=0 mountKey=0 linkKey=0 fatPipeKey=0 scsiResType=1 serverStateFlags=1
MdsAllocation: allocationKey=91667 jobType=1 mediaKey=4000264 mediaId=YZ5353 driveKey=2000008 driveName=HP.ULTRIUM4-SCSI.000 drivePath=/dev/nst5 stuName=nbumaster-hcart-robot-tld-0 masterServerName=nbumaster mediaServerName=nbumaster ndmpTapeServerName= diskVolumeKey=0 mountKey=0 linkKey=0 fatPipeKey=0 scsiResType=1 serverStateFlags=1
nbumaster:~ #
然后使用/usr/openv/netbackup/bin/admincmd/nbrbutil –releaseMDS 即上面的“allocationKey=”后面相应的数值,来释放资源
这样我们便能成功执行bpexpdate命令
17、查询目前有哪些磁带正在被哪个驱动器调用,以及正在运行哪些备份任务
nbumaster:~ # /usr/openv/netbackup/bin/admincmd/nbrbutil -dump
18、列出所有的job的明细
nbumaster:~ # /usr/openv/netbackup/bin/admincmd/bpdbjobs
将bpdbjobs输出到/tmp/bpdbjobs.txt文件中
bpdbjobs -file /tmp/bpdbjobs.txt
列出所有作业的摘要,可查看目前正处于ACTIVE的任务有多少个
nbumaster:~ # /usr/openv/netbackup/bin/admincmd/bpdbjobs -summary
MASTER SERVER QUEUED REQUEUED ACTIVE SUCCESS PARTSUCC FAILED INCOMP SUSP WAITING_RETRY TOTAL
nbumaster 0 0 5 1320 0 43 0 0 0 1368
nbsupport170工具可以向veritas技术支持中心获取。
-
Solaris下:
/usr/openv/volmgr/bin/sgscan changer 查看本机所有Robot设备;
/usr/openv/volmgr/bin/sgscan tape 查看本机所有的磁带驱动器。
/usr/openv/volmgr/bin/sgscan disk 查看本机所有的disk,包括本地磁盘和共享磁盘。 -
robot及磁带驱动器配置:
/usr/openv/volmgr/bin/tpconfig 提供add ,delete,list NBU可以识别并使用的物理设备。
/usr/openv/volmgr/bin/stopltid
/usr/openv/volmgr/bin/stopltid <参数> :当修改配置后请重启:ltid(设备管理进程)。
tpconfig: 可以进入文本菜单。 先配置robot,再配置磁带驱动器。
/usr/openv/volmgr/bin/tpconfig -d 可以查看磁带驱动器及robot细节情况。
当配置完成之后,一定要重启ltid进程。
robtest
tpconfig -d
Id DriveName Type Residence
Drive Path Status
0 HP.ULTRIUM3-SCSI.000 hcart3 TLD(0) DRIVE=1
/dev/rmt/0cbn UP
/dev/rmt/1cbn UP
Currently defined robotics are:
TLD(0) robotic path = /dev/sg/c0tw500110a0009485aal1
EMM Server = dcd-bjgglc-logcdr
-
名词介绍:
image: 镜像:一个客户端在一次备份中所有数据的集合。
storage unit: 存储单元:保存备份的逻辑位置,可以是磁盘也可以是磁带。
volume: 卷: 每一个磁带一个编号,称为一个卷。
volume: 卷池:一组卷的集合,在备份时需要指明卷池,netbackup会自动维护卷池中的所有卷。
backup policy: 备份策略:4方面:数据保存在哪个存储单元,什么时段运行,备份哪些client的数据;
需要备份的数据的位置。 -
netbackup 进程维护
/usr/openv/netbackup/bin/bpps -a 查看netbackup 所有进程,也可以通过图形界面查看Daemons状态。
bp.kill_all 启动netbackup (netbackup stop)
bp.start_all 停止netbackup (netbackup start)
jnbSA % 启动netbackup图形化界面.
- 磁带维护
/usr/openv/netbackup/bin/goodies/available_media:
以root用户运行,可以查看磁带的状态等等信息;
status: full,active,available,frozen,dbbackup.
当有磁带frozen时,可以用:bpmedia -unfreeze -m A00006,对磁带进行解frozen;
当磁带反复frozen时,请检查是否有坏,或是此磁带是清洗带。
过期磁带: bpexpdate -m media_id -d 0 eg: bpexpdate -m NU06CU -d 0 使磁带可重写。
bpexpdate -backupid eel_0904219764 -d 0 删除备份
bpexpdate: -m -d
bplist:
bplist -C dcd-bjgglc-rac03-vip -t 4 -l -R 4代表oracle
bplist --help
bpmedialist -l: 查看磁带信息。
bplabel: 对磁带进行label : 有三种方式 :quick erase; long erase; NBU label;
/usr/openv/netbackup/bin/admincmd/bplabel -erase -o -m -d hcart -p NetBackup -host
/usr/openv/netbackup/bin/admincmd/bplabel -erase -l -o -m -d hcart -p NetBackup -host
/usr/openv/netbackup/bin/admincmd/bplabel -m -d hcart -o -p NetBackup [-n drive_name | -u device_number] -host
对磁带label 可以检查,磁带是否有问题,时间也很快。
/usr/openv/netbackup/bin/admincmd/bpdbjobs -report
/usr/openv/netbackup/bin/admincmd/bperror -U –problems 报告24小时内的问题。
/usr/openv/netbackup/bin/admincmd/bpgetconfig | more 获得netbackup的配置信息。
/usr/openv/netbackup/bin/bpclntcmd -hn Client_A 测试到某client是否有问题。
磁带的池:
netbackup : 默认扫描到的磁带都放在此池;除clear带。
none: 默认放清洗带。
其他池可以手工建议:对一个策略建立一个池,从netbackup中找到数据带,分配到相应的策略池中。
并可以对分配完成的磁带进行label操作,可以检查磁带是否有问题。
6.管理维护:
bpadm 可以进行日常维护用,而不用jnbSA 的图形化界面。
bpflist -d 2009-07-01 -e 2009-07-02 -policy dbbackup -client dcd-bjgglc-rac03-vip -U
这一句可能是最有用的。
bpps -a
bpdbjobs -report 执行结果的状态问题: 0 :成功; 96: 没有空闲磁带可用。其他:
bpimage --help
bpflist --help