博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
AIX故障定位
阅读量:2376 次
发布时间:2019-05-10

本文共 2970 字,大约阅读时间需要 9 分钟。

3.6.1 故障的定义

.弄清楚系统发生了什么问题
.系统现在能做什么?不能做什么?
.故障什么时候发生的?
.有没有做平时不同的操作?
.故障有没有规律?定时还是不定时?发生的频率有多高?
.是一台机器出现故障还是多台机器故障?故障现象是否相同?
.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。
3.6.2 故障信息的收集
收集故障信息对于判断、诊断故障原因,修复系统非常重要。
1)
系统故障记录(errorlog)
errdemon 进程在系统启动时自动运行
记录包括硬件、软件及其他操作信息
故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析
errpt 命令的使用见aix的日志管理小节
2)
控制面板上的LED 代码
.8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。
.4 位代码,通常是Exxx。
.3 位代码,通常为0yyy,只看后3位。
.8 位和4位代码可查看系统服务手册 (Service Guide)。
3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。
.闪动的 888, 系统崩溃,硬件或软件原因造成。按reset 键会显示更多内容。
888-102 一般为软件故障(888-102-207 例外)
系统会产生一个dump。
888-102-xxx-0C9 系统正在做dump, 请等待。
888-102-xxx-0C0 系统dump完成,可关电重启。
888-103 或 105
硬件故障,一般有 SRN 代码及位置代码。
3)
SMS (System Management Service) 故障记录
如何进入SMS 菜单
当主控台出现键盘图标后(LED 显示E1F1时)按1键。
选择"Utilities"
选择"Error Log", 抄下8位故障代码
(在SMS 中还可以更改系统启动顺序表)
4)
邮件告警
#mail
系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root。
5)
故障诊断程序(Diagnostic)
当发现有硬件故障时应立即使用diag 对系统硬件进行检查和诊断。
#diag
> 选高级诊断(Advance Diagnostic)
> 选问题诊断(Problem Determination) 或
选系统检查(System Verification)
(选PD 会对系统错误记录进行分析)
diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。
对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。
3.6.3 硬件故障定位方法
IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRNs。
1)
Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在 I/O柜的显示面板上一系列信息。
2)
Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。
3)
SRNs (Service request numbers,服务请求码 )当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。
3.6.4
7133 磁盘柜的故障定位
当SSA磁盘柜出现故障时,在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动,在AIX的error log中也会有记载错误信息,如:DISK_ERR1,DISK_ERR4,SSA_ARRAY_ERROR等。请在出现问题后记录下代码,并致电IBM800服务热线。
3.6.5 软件故障定位方法
软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。
1) 文件系统空间不够。
查看有没有“满”的文件系统。特别是/、/var、/tmp,不要超过90%。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统,当/tmp目录使用率是100%,informix数据库在启动过程中将会报错而导致无法启动,如果/ (根文件系统)满则会导致用户不能登录。对文件系统的使用率可用df –k进行 查看:
# df -k
Filesystem
1024-blocks Free %Used Iused %Iused Mounted on
/dev/hd4
507904 468328 8%
1362 1% /
/dev/hd2
1015808 308648 70%
22255 9% /usr
/dev/hd9var
507904 478372 6%
553 1% /var
/dev/hd3
1015808 982940 4%
75 1% /tmp
/dev/hd1 262144 206528
22% 114 1% /home
/proc - -
- - -
/proc
/dev/hd10opt
1015808 976132 4%
342 1% /opt
/dev/lvsoft
4014080 2430716 40%
163 1% /soft
除/usr文件系统,其他文件系统都不应太满,一般不超过80%。
处理方法1:删除垃圾文件
# du -sk * |sort -rn |head
查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的 mount point,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重起系统。
处理方法2:增加文件系统大小
# smitty chjfs
文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。
2)
检查文件系统的完整性
# umount filesystem_name
# fsck -y filesystem_name
注意:文件系统必须先umount,再做检查和修复,否则可导致未
知的后果。
3)
查看卷组信息(lsvg -l vg_name):
有没有"stale"状态的逻辑卷。 若有,用syncvg 命令修复"stale"逻辑卷。
4)
检查内存交换区(paging space)使用率(lsps -s):
使用率是否超过70% ,若有则用chps –sX pgname增加X个PP或用
mkps –a –n –sX myvg在myvg上增加一个PP数为X的内存交换区。
5)
小型机内存泄漏问题
小型机出现内存泄漏,即系统或应用进程无法将使用过的内存释放,使可用内存的容量逐渐减少。如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程,就会造成系统瘫痪。 通常我们可以用ps和sar命令来查看小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的发展趋势。

转载地址:http://dflxb.baihongyu.com/

你可能感兴趣的文章
大数据和预测分析的非常规性用途
查看>>
在大数据时代兼顾安全与自由
查看>>
券商跃跃欲试电子商务 期待大数据创新有所突破
查看>>
大数据成电影新驱动?理性对待
查看>>
以大数据视角 看住房信息普查
查看>>
心急吃不了热豆腐 脚踏实地玩儿转大数据
查看>>
中国电信大数据价值挖掘:聚焦商业模式探索
查看>>
“大数据”时代的喜与忧
查看>>
政府搭建云平台 迎接“大数据时代”
查看>>
宁家骏:大数据比云计算更为落地
查看>>
IBM PureData:破解大数据的利器
查看>>
实施大数据项目时所需要做的三件事
查看>>
北京开放政府信息资源 “大数据”供社会化利用
查看>>
数据安全在裸奔:大数据是黄金更是刺刀
查看>>
互联网金融火爆预示大数据时代来临
查看>>
大数据安全和隐私问题永远无法解决
查看>>
中国网库董事长王海波:实体经济也需要大数据
查看>>
互联网大会:大数据驱动的智能创新
查看>>
评论:大数据是否仅仅只是炒作?
查看>>
让大数据成为政务信息化的战略资源
查看>>