免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2680 | 回复: 1
打印 上一主题 下一主题

[系统管理] 请教一个服务器进程阻塞的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2018-03-19 09:17 |只看该作者 |倒序浏览
基本配置:联想x3750,双至强cpu,384G内存,centos 6.4
一个多月前突然死机,然后经过各种raid和系统重做,始终没有解决问题
症状描述如下:
系统正常启动,启动后,只运行一个主机监控客户端,不运行其他软件
启动后,通过监控数据可以发现,系统进程中状态为running和blocked的进程数会随着时间的增加不断增加,直至整个系统瘫痪。
如果只运行该监控客户端,这个过程要数日。如果运行重度应用软件,几十分钟即可导致系统瘫痪
在这个过程中,经常出现的一个情况是,linux命令,比如进入某个目录执行ll,执行ps -ef|wc -l啥的,会莫名其妙的无规律不响应,ctrl+C也无法结束,只能关闭客户端重新ssh连接。
瘫痪之前,往往会出现ssh也会瘫痪的情况,就是从另外的节点上ssh该节点,出现无反应的情况,ctrl+c也无法结束
系统/var/log/messages中出现了一些类似的提示:
kernel: INFO: task monx-agent:2838 blocked for more than 120 seconds.
...


后来查看状态为R的进程都是啥,发现都是migration和watchdog进程,注意,进程状态是R且一直是R的进程都是这2个进程,但大多数这2个进程的状态依然是正常的S
migration/0到migration/31,有些是R
watchdog/0到watchdog/31,也有些是R

查看系统日志中的boot.log dmesg,没发现什么异常(dmesg里很多东西其实我也看不懂)
sensors查看cpu核心温度也很正常
bois设置除了raid之外都是缺省
服务器自身无任何硬件报警,bois启动过程中也无警告
同型号其他服务器都没这种个问题

请教各位,什么情况会导致这种问题,我该怎么定位问题所在,谢谢

论坛徽章:
0
2 [报告]
发表于 2018-03-19 09:35 |只看该作者
上面的monx-agent进程是一个主机监控客户端,采集监控数据并发送给监控中心端
linux在整个运行中,cpu和内存一直很闲
但load1,load5,load15则随着阻塞进程的增加不断增大,直至系统瘫痪
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP