本文共 2970 字,大约阅读时间需要 9 分钟。
3.6.1 故障的定义
.弄清楚系统发生了什么问题 .系统现在能做什么?不能做什么? .故障什么时候发生的? .有没有做平时不同的操作? .故障有没有规律?定时还是不定时?发生的频率有多高? .是一台机器出现故障还是多台机器故障?故障现象是否相同? .最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。3.6.2 故障信息的收集收集故障信息对于判断、诊断故障原因,修复系统非常重要。1) 系统故障记录(errorlog) errdemon 进程在系统启动时自动运行 记录包括硬件、软件及其他操作信息 故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析 errpt 命令的使用见aix的日志管理小节 2) 控制面板上的LED 代码 .8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。 .4 位代码,通常是Exxx。 .3 位代码,通常为0yyy,只看后3位。 .8 位和4位代码可查看系统服务手册 (Service Guide)。 3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。 .闪动的 888, 系统崩溃,硬件或软件原因造成。按reset 键会显示更多内容。 888-102 一般为软件故障(888-102-207 例外) 系统会产生一个dump。 888-102-xxx-0C9 系统正在做dump, 请等待。 888-102-xxx-0C0 系统dump完成,可关电重启。 888-103 或 105 硬件故障,一般有 SRN 代码及位置代码。 3) SMS (System Management Service) 故障记录 如何进入SMS 菜单 当主控台出现键盘图标后(LED 显示E1F1时)按1键。 选择"Utilities" 选择"Error Log", 抄下8位故障代码 (在SMS 中还可以更改系统启动顺序表) 4) 邮件告警#mail 系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root。 5) 故障诊断程序(Diagnostic)当发现有硬件故障时应立即使用diag 对系统硬件进行检查和诊断。#diag > 选高级诊断(Advance Diagnostic) > 选问题诊断(Problem Determination) 或 选系统检查(System Verification) (选PD 会对系统错误记录进行分析) diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。 对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。 3.6.3 硬件故障定位方法IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRNs。 1) Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在 I/O柜的显示面板上一系列信息。 2) Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。 3) SRNs (Service request numbers,服务请求码 )当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。 3.6.4 7133 磁盘柜的故障定位当SSA磁盘柜出现故障时,在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动,在AIX的error log中也会有记载错误信息,如:DISK_ERR1,DISK_ERR4,SSA_ARRAY_ERROR等。请在出现问题后记录下代码,并致电IBM800服务热线。 3.6.5 软件故障定位方法软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。 1) 文件系统空间不够。 查看有没有“满”的文件系统。特别是/、/var、/tmp,不要超过90%。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统,当/tmp目录使用率是100%,informix数据库在启动过程中将会报错而导致无法启动,如果/ (根文件系统)满则会导致用户不能登录。对文件系统的使用率可用df –k进行 查看: # df -k Filesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 507904 468328 8% 1362 1% //dev/hd2 1015808 308648 70% 22255 9% /usr/dev/hd9var 507904 478372 6% 553 1% /var/dev/hd3 1015808 982940 4% 75 1% /tmp/dev/hd1 262144 206528 22% 114 1% /home/proc - - - - - /proc/dev/hd10opt 1015808 976132 4% 342 1% /opt/dev/lvsoft 4014080 2430716 40% 163 1% /soft 除/usr文件系统,其他文件系统都不应太满,一般不超过80%。 处理方法1:删除垃圾文件 # du -sk * |sort -rn |head 查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的 mount point,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重起系统。 处理方法2:增加文件系统大小 # smitty chjfs 文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。 2) 检查文件系统的完整性 # umount filesystem_name # fsck -y filesystem_name 注意:文件系统必须先umount,再做检查和修复,否则可导致未 知的后果。3) 查看卷组信息(lsvg -l vg_name): 有没有"stale"状态的逻辑卷。 若有,用syncvg 命令修复"stale"逻辑卷。 4) 检查内存交换区(paging space)使用率(lsps -s):使用率是否超过70% ,若有则用chps –sX pgname增加X个PP或用 mkps –a –n –sX myvg在myvg上增加一个PP数为X的内存交换区。 5) 小型机内存泄漏问题 小型机出现内存泄漏,即系统或应用进程无法将使用过的内存释放,使可用内存的容量逐渐减少。如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程,就会造成系统瘫痪。 通常我们可以用ps和sar命令来查看小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的发展趋势。转载地址:http://dflxb.baihongyu.com/