即日起在codingBlog上分享您的技术经验即可获得积分,积分可兑换现金哦。

运维老司机分享的八个AIX日常运维经验及案例

微信 AIX专家俱乐部 12℃ 0评论

春天来了,万物复苏,又是一个运维老司机活跃的季节……

说是“老”司机,其实都是年轻有为的IT人,只不过在这个领域经历了不少风浪,凭借专心耐心和细心,磨砺出了实打实的知识和经验,最终才成就了这一手过硬的技术。

今天,就分享几个社区AIX老司机们贡献的日常运维经验和遇到的案例。


经验分享在AIX启动时,打开debug模式

经常遇到aix无法启动,但又不知道pending在哪,因此打开启动过程的debug模式,对于诊断问题有很大的帮帮助。下面是打开debug的方法:

打开启动debug先进入微码模式(启动界面中输入8)

boot -s trap

进入kdb

dbgopt

选择要debug的内容

重新进入kdb

输入g

分享者:崔增顺


经验分享odm库修复方法

分享者:崔增顺


经验分享如何收集filemon数据

filemon -O all -o filemon.out;sleep 30;trcstop

语法:

filemon [ -d ] [ -i Trace_File -nGennames_File] [ -o File] [ -O Levels] [ -P ] [ -T n] [ -u ] [ -v ]

#filemon-o fm.out -O all ; sleep 30 ; trcstop

输出结果保存在fm.out 中。输出字段说明如下:

最活跃的文件

 #MBs 此文件在测量间隔时间内的传送量(以 MBs 为单位)。各行按照此字段降序排列。

 #opns 在测量周期内的文件的打开次数。

 #rds 文件读取调用的次数

 #wrs 文件写入调用的次数

 file 文件名称(文件路径全称在详细报告中)。

 volume:inode 文件驻留的逻辑卷和在相连文件系统总的 i-node 数目。此字段可以被用来把文件和在详细的 VM 段报告中显示的其相应的永久段关联起来。此字段对在执行过程中创建和删除的临时文件可以为空。

最活跃的段

 #MBs 此段在测量间隔时间内的传送量(以 MBs 为单位)。各行按照此字段降序排列。

 #rpgs 从磁盘读入段中大小为 4-KB 的页面数

 #wpgs 从段中写入磁盘大小为 4-KB 的页面数(page out)

 #segid 内存段的 VMM 标识

 segtype段的类型:工作段、永久段(本地文件)、客户机段(远程文件)、页表段、系统段或者包含文件系统数据的指定永久段。

 volume:inode 对永久段来说,包含相关文件的逻辑卷名称和文件的 i-node 数目。此字段可以被用来把段和在详细的文件状态报告中显示的其相应的文件关联起来。对非永久段来说,此字段为空。

最活跃的逻辑卷

 util 逻辑卷使用率。

 #rblk 从逻辑卷读取的大小为 512 字节的块数。

 #wblk 写入逻辑卷大小为 512 字节的块数。

 KB/s 每秒钟平均传送速率,单位 KB。

 volume 逻辑卷名称。

 description 文件系统安装点或是逻辑卷类型(paging, jfslog, boot,or sysdump)。例如,逻辑卷 /dev/hd2 是/usr类型;/dev/hd6 是 paging 类型以及 /dev/hd8 是 jfslog 类型。有时也可能出现被压缩的这个字眼。这意味着所有的数据在被写入磁盘前都会以 Lempel-Zev(LZ)压缩技术自动压缩,在从磁盘读取时则自动解压缩。

最活跃的物理卷

 util 物理卷使用率。

注:逻辑卷 I/O 请求在物理卷 I/O 请求前后启动。总的逻辑卷使用率将会看起来比总的物理卷使用率高。使用率用百分比表示,0.10 是指 10% 的物理卷在测量时间间隔内繁忙。

 #rblk 从物理卷读取的大小为 512 字节的块数。

 #wblk 写入物理卷大小为 512 字节的块数。

 KB/s 每秒钟平均传送速率,单位 KB。

volume 物理卷名称。

 description 有关物理卷类型的简单描述,例如, SCSI 多媒体 CD-ROM 驱动器或 16位SCSI 磁盘驱动器。

文件系统的安装点(mount point)及文件的i节点(inode)可与命令ncheck一起使用,来找出相对应的文件。

分享者:崔增顺 张文正

【案例分享】/dev/null 2>&1 文件过大导致根目录爆满

在日常检查维护过程中,发现小机分区/目录89%,90%,

du -axg / |sort -rn|head

查找出/根目录下最大的10 个文件,发现 ‘/dev/null 2>&1’文件非常大,占比达60%,而且rootvg所剩余的空间不足,无法进行扩容。在IBM官网查询手册以及证实后,发现此文件不停增大为AIX6.1的系统BUG。在观察了近1个月后,在和童确认。在dfkdr分区上进行尝试删除。之后,,进行删除操作。根目录恢复正常。

http://www-01.ibm.com/support/docview.wss?uid=nas74d33539b559cc0308625792900533a8f

Description

The /var/opt/tivoli/ep/rusntime/nonstop/bin/cas_src.sh script writes a file “/dev/null 2>&1” which might fill up the / filesystem.

This happens with agents that have the following cas.agent fileset version:

cas.agent 1.4.2.32

Common Agent Services Agent

Work-around and fix notes are detailed below.

判别是否存在BUG

lslpp -L cas.agent

可看到Level为1.4.2.32,C F

BUG脚本为

cat /var/opt/tivoli/ep/runtime/nonstop/bin/cas_src.sh

else

CAS_SRC_LOG=”/dev/null 2>&1”

fi

Bug 2 : After installing TL7 and at system reboot, the Director agent is automatically enabled.

处理方式:

1.disable cas_agent 操作命令: stopsrc –s cas_agent

2.disable the cas_agent entry in /etc/inittab 操作命令:chitab “cas_agent:2off:/usr/bin/startsrc –s cas_agent >/dev/null 2>&1”

3.在/dev下执行rm nul*1

分享者:ACDante

【案例分享】多CEC柜 9117-570更换FSP后报无法开机,代码报B1551380

原因:没有按HMC流程更换FSP,换上去的FSP的”processing unit identifier”记录的是B2,B2设置只能支持单柜,不支持多CEC柜。

解决:powered off状态时,进入ASM把”processing unit identifier”改为B3。

Note: This feature is available only when the system is powered off. This operation resets the service processor.

To change the processing unit identifier, do the following:

1.On the ASMI Welcome pane, specify your user ID and password, and click Log In.

2.In the navigation area, expand System Configuration.

3.Select Processing Unit Identifier.

4.Enter the desired information into the 2-character text area. Supported processing unit identifiers are shown in the following table:

5.Note: Processing unit IDs are not applicable for IntelliStation® POWER® 185, 7037-A50, and the 7031-D24 and 7031-T24enclosure models.

6.Click Save settings to complete the operation.

分享者:姜恒


【案例分享】AIX6100-06-06系统bug引起down机

某机器操作系统版本6100-06-06,系统down机,生成dump文件。

Problem:

System crash with following stack

CRASH INFORMATION:

CPU 3 CSA F00000002FF47600 at time of crash, error code

for

LEDs: 30000000

pvthread+02BD00 STACK:

[00009500].simple_lock+000000 ()

[00450E24]netinfo_unixdomnlist+000824 (??, ??, ??, ??,

??, ??)

[0451214C]netinfo+00006C (??, ??, ??, ??, ??, ??)

[004504DC]netinfo+0000FC (??, ??, ??, ??)

[00003850]ovlya_addr_sc_flih_main+000130 ()

[kdb_get_virtual_memory] no real storage @

FFFFFFFFFFFEF20

[100002640]0000000100002640 ()

[kdb_read_mem] no real storage @ FFFFFFFFFFF5E30

bug原因

File lock is taken before checking whether the file type is

socket.

该故障因netstat -f unix 命令引起系统 crash, 是iBM bug 引起

建议单独提升bos.mp64包补丁包或者整体升级到6100-06-12-1339(SP12)

官网解释:

IV09793: SYSTEM CRASH IN NETINFO_UNIXDOMNLIST APPLIES TO AIX 6100-06

http://www-01.ibm.com/support/docview.wss?uid=isg1IV09793

File lock is taken before checking whether the file type is

socket.

分享者:qb306


【案例分享】一次HACMP的回车

记得印象很深刻的一次,当时并没有陪过HACMP,但维护的环境中有一台出报的系统找到了我。当时是打电话联系当时做这套系统的技术支持。逐步检查HACMP的配置,检查后。本来应该推出,但是当时手抖。习惯性的敲了回车。什么配置都没有改动。但是却报了错说让我重启生效,那时候才知道HACMP无论配置有没有改动。敲了回车就认为是修改了配置。要重启。

分享者:pysx0503

【案例分享】某企业HACMP软件,在网络交换机变更是引起down机

某企业HA cluster log, IP switch down时引起双节点halt,系统版本7100-03-03,HA版本6.1sp13

Error description

In HACMP 6 with rsct.core.utils 3.1.4.9 or higher, if all

IP networks are lost and at least one non-IP network is

functioning, the Group Services subsystem will core dump when

trying to send packets to be routed through Topology Services

(across the non-IP connection). This will cause a node halt.

Customers with PowerHA 7, or HACMP 6 customers with no non-IP

networks (such as rs232 or disk) are not in danger. Also this

will not happen if only one node is still running, since there

will be no other cluster members to send messages to.

日志如下

Nov 21 01:35:46 masterserv1 daemon:notice topsvcs[8192030]: (Recorded using libct_ffdc.a cv 2):::Error ID: 6zV5DL.mbpHK/ONs/o.Ama/……………….:::Reference ID:

:::Template ID: 173c787f:::Details File: :::Location: rsct,nim_control.C,1.39.1.41,6717 :::TS_LOC_DOWN_ST Possible malfunction on local adapter Adapter i

nterface name en2 Adapter offset 1 Adapter IP address 192.200.192.52

Nov 21 01:35:49 masterserv1 user:notice HACMP for AIX: EVENT START: fail_standby masterserv1 192.200.192.52

Nov 21 01:35:49 masterserv1 user:notice HACMP for AIX: EVENT COMPLETED: fail_standby masterserv1 192.200.192.52 0

Nov 21 01:35:51 masterserv1 user:notice HACMP for AIX: EVENT START: fail_standby masterserv2 192.200.192.53

Nov 21 01:35:51 masterserv1 user:notice HACMP for AIX: EVENT COMPLETED: fail_standby masterserv2 192.200.192.53 0

Nov 21 01:40:34 masterserv1 daemon:notice topsvcs[8192030]: (Recorded using libct_ffdc.a cv 2):::Error ID: 6zV5DL.GgpHK/DLG.o.Ama/……………….:::Reference ID:

:::Template ID: 173c787f:::Details File: :::Location: rsct,nim_control.C,1.39.1.41,6717 :::TS_LOC_DOWN_ST Possible malfunction on local adapter Adapter i

nterface name en0 Adapter offset 0 Adapter IP address 102.200.192.52

Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: Called, state=ST_UNSTABLE, provider token 1

Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: GsToken 2, AdapterToken 3, rm_GsToken 1

Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: GRPSVCS announcment code=512; exiting

Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 CHECK FOR FAILURE OF RSCT SUBSYSTEMS (topsvcs or grpsvcs)

Nov 21 01:40:36 masterserv1 daemon:err|error haemd[15204586]: LPP=PSSP,Fn=emd_gsi.c,SID=1.4.1.37,L#=1395, haemd: 2521-032 Cannot d

ispatch group services (1).

Nov 21 01:40:36 masterserv1 user:notice HACMP for AIX: clexit.rc : Unexpected termination of clstrmgrES.

Nov 21 01:40:36 masterserv1 user:notice HACMP for AIX: clexit.rc : Halting system immediately!!!

原因是补丁IV55293: HAGSD CORE DUMP WHEN IP NETWORKS LOST, 需要升级rsct文件集。

官网解释:

http://www-01.ibm.com/support/docview.wss?uid=isg1IV55293

分享者:qb306

篇幅所限,暂时先分享这么多,后续我们还会推送更多老司机经验


以上经验、案例崔增顺整理,主要来自:

  • PowerVC专栏(http://www.aixchina.net/Column/detail/id/7

  • 社区交流活动“AIX系统日常运维中故障分析及处理在线技术交流”(点击文末“阅读原文”可以去交流页面)

更多内容请前去浏览

长按下图二维码关注“AIX专家俱乐部”公众号

也可以直接搜索公众号名称“AIX专家俱乐部”或微信号“AIXChina”关注

转载请注明:CodingBlog » 运维老司机分享的八个AIX日常运维经验及案例

喜欢 (0)or分享 (0)
发表我的评论
取消评论

*

表情