VERITA备份日常监控及维护
VERITA备份日常监控
1. 日常检查流程
1)
确认VERITAS NBU进程状态
2)
确认备份任务状态
3)
确认磁带、磁带机的工作状态
4)
确认文件系统状态
5)
磁带机清洗
2. 相关检查命令
启动NBU的图形管理界面:
/usr/openv/netbackup/bin/jnbSA &
1) 检查NBU进程状态:
需要每天监控activity monitor,确认在备份服务器上运行的进程有:avrd、vmd、tldd、ltid、bprd、nbdbd、bpdbm、bpsched、bpjobd。
如果前四个进程avrd、vmd、tldd、ltid有一个没有运行,则备份系统工作不正常。
简单的处理方法:重新启动NBU服务器进程
方法如下:
a)
退出NBU的java管理界面,以root身份在命令行状态下输入:netbackup stop
b)
使用bpps –a检查上述进程的状态
c)
如果进程没有被kill干净,继续执行netbackup stop命令。
d)
如果无法结束所有的进程,需要使用bp.kill_all来进行终结。
e)
当使用bpps –a看到没有NBU的进程输出时,表明所有的NBU进程已经结束。使用命令:netbackup start启动NBU进程,并用bpps –a确认。
f)
如果问题依然存在,请与厂家联系检查VERITAS工作状态。
2) 检查备份任务状态。
需要每天监控activity monitor,观察已经发生备份的任务状态返回值,返回值为0表明备份成功;如果返回值不为0,表明备份失败。对于数据库Archivelog的备份,由于备份的频率目前设置为每一小时一次,因此如果在下面的备份作业中,如果Archivelog的备份成功,可以忽略上面错误的备份。
典型的备份错误有:
a)
Archivelog备份返回值为1,而且后续的备份均返回1。
通常情况,需要进行Oracle 数据库的Archivelog同步。
Oracle数据库Archivelog同步的方法为:
以Oracle数据库用户登录到Oracle数据库服务上,通过RMAN来运行下面的命令:
$ su – oracle
$ rman
RMAN> connect target /
RMAN> change archivelog all validate;
RMAN> exit
b)
备份作业返回值为41、54。
检查服务器网络工作状态:
首先找到备份失败的服务器IP地址,确认IP地址可以ping通。
使用telnet工具,进行如下操作:
# telnet 服务器IP地址 13782
如果返回信息如下,表明VERITAS NBU通信正常。
Trying...
Connected to 服务器IP地址.
Escape character is '^]'.
如果系统直接返回到命令行状态,请检查问题服务器的service和inetd设置,确保bpcd进程存在。
并使用如下命令检查bpcd的工作状态:
# netstat |grep bpcd
c)
备份作业返回96、219。
请检查磁带机、磁带的工作状态
3) 检查磁带和磁带机状态:
磁带机和磁带常见的错误为96、219,需要确认磁带机状态是否up,磁带库是否闪红灯,使用bpmedialist命令查看是否磁带已经写满或者处于frozen状态,磁带是否卡在了磁带机里。
如果磁带显示frozen,可以使用bpmedia -unfreeze -m labelid来清除此状态,如果磁带反复显示frozen,可能磁带坏,请与厂家联系磁盘检查。
补充:可以在java界面中选择“Media and Device Management”来查看现在media分配的情况。
观察磁带机工作状态的方式有2种:Java GUI界面和命令行。
a)
Java GUI界面方式:
在Java GUI界面下,可以在Media and Device ManagementàDevice Monitor选项中,观察到磁带机的状态。例如磁带机正在使用中、磁带机DOWN、磁带机空闲等。
b)
命令行方式:
使用命令行方式观察磁带机的状态,相关的命令有vmdareq、vmoprcmd。
如果观察到磁带机DOWN,建议先检查是否有卡带现象。确定没有卡带现象后,可以做简单的磁带机UP操作。磁带机UP操作可以通过上面所述的Java GUI界面和命令行方式来执行。命令行方式举例如下:
# vmoprcmd –h hostID –up driveID
其中,hostID是SSO服务器名称,driveID是磁带机的序号,目前备份系统中2台磁带机的序号取值为0和1。
经过简单UP后,如果磁带机仍然出现DOWN现象,请与厂家联系解决。
4) 检查文件系统状态
在备份服务器和其它服务器上使用如下命令
# df –k
确认文件系统有可以使用的空间。文件系统如果写满,备份系统将工作不正常。
备注:
如果经过了很长时间(如7,8个小时)一个备份任务一直处于active或者queued状态,同时显示此任务的字节数没有增长,需要把此任务kill掉。因为这样会阻止下一个任务的执行。