免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: Fl_wolf
打印 上一主题 下一主题

【大话IT】运维是个坑,年底盘点背锅侠的点点滴滴~(获奖名单已公布) [复制链接]

论坛徽章:
3
IT运维版块每日发帖之星
日期:2015-12-05 06:20:00数据库技术版块每日发帖之星
日期:2015-12-05 06:20:00luobin
日期:2016-06-17 17:46:36
11 [报告]
发表于 2017-01-05 16:39 来自手机 |只看该作者
坑比较多,前人挖坑后人填。

论坛徽章:
2
技术图书徽章
日期:2013-12-20 07:35:03技术图书徽章
日期:2014-12-16 12:59:42
12 [报告]
发表于 2017-01-05 16:46 |只看该作者
本帖最后由 General_715 于 2017-01-05 16:52 编辑

1.你遇到过哪些的坑让你印象深刻?你是如何解决的。
有一次在rhel5上配置yum,因为rhel是需要认证的,配置起来完全和centos不一样,配置上去之后没有起到作用,就联系了红帽的技术支持,也没找出原因就叫我用sosreport命令(记不太清了,应该是这个)收集信息,命令执行时间较长,在执行的过程中,我自己把问题解决了,于是联系技术支持,他叫我ctrl+C退出即可,结果我执行了之后,服务器down了。。。。。。后来打电话过去,他们说是这个命令的bug,已经在rhel6版本修复,5版本不予修复。
还有,最开始接触脚本的时候,脚本了用了rm命令,后面接的是变量,在后面是tmp目录,目的是想再某一个目录(通过变量取得)下建一个tmp目录,然后用完之后删除这个tmp目录,结果这个变量有一次没取到,然后就把根目录下的tmp目录删除了。。。还有,某一个内部系统使用起来非常慢,项目经理很不满意,后来我上系统上用top命令查看,发现数据库进程占用cpu达到了100%,登上数据库一看,正在执行的一个sql语句对某一个表进行查询操作,我一查,这个表几百万行。后来经过调查和询问,系统搭建的时候,有一个脚本要定期执行去删除这个表的数据,结果脚本,之前搭建的同事忘了放到crontab里去执行,从来就没运行过。
2.有哪些细枝末节的坑你是想提醒一下身边的运维伙伴的?
首先,最重要的就是要在测试环境进行一些未知的操作,在完全确认没问题之后,在上生产环境进行操作。整个操作过程记录成文档,留下日志,在生产环境操作的时候,严格按照之前准备好的文档执行。而且要在非业务时间。
再有,就是不要再脚本里出现rm命令,更不可以在rm命令后面接变量。
3.谈谈出现坑的主要原因与如何规避它们。
第一,自己操作不仔细,出现操作失误。
第二,开发程序有bug,这个就需要在测试环境先运行,没问题了再上生产环境运行。
第三,新手进行操作因为没经验容易引起问题,最好有有经验的人在旁边看着,不要让新手独立进行操作

评分

参与人数 1信誉积分 +5 收起 理由
Fl_wolf + 5 赞一个!

查看全部评分

论坛徽章:
43
15-16赛季CBA联赛之上海
日期:2020-11-04 09:36:5515-16赛季CBA联赛之北控
日期:2018-10-29 18:20:3415-16赛季CBA联赛之北京
日期:2018-10-06 21:39:5715-16赛季CBA联赛之天津
日期:2018-08-09 10:30:41ChinaUnix元老
日期:2018-08-03 17:26:00黑曼巴
日期:2018-07-13 09:53:5415-16赛季CBA联赛之吉林
日期:2018-03-30 12:58:4315-16赛季CBA联赛之佛山
日期:2017-12-01 10:26:3815-16赛季CBA联赛之上海
日期:2017-11-14 09:20:5015-16赛季CBA联赛之江苏
日期:2019-02-20 09:53:3319周年集字徽章-庆
日期:2019-08-27 13:23:2515-16赛季CBA联赛之广夏
日期:2019-09-03 18:29:06
13 [报告]
发表于 2017-01-05 17:28 |只看该作者
我不做运维,不过运维是个坑。
做好运维主要几个方面。
1:规范化管理。可以减少频繁对系统的操作。出问题也可以查找。
2:人员培训。只有业务,技术熟了,才能更好的操作。

论坛徽章:
4
ChinaUnix专家徽章
日期:2015-07-27 10:05:26IT运维版块每日发帖之星
日期:2015-09-01 06:20:00IT运维版块每日发帖之星
日期:2016-07-29 06:20:00PHP
日期:2016-10-25 16:08:01
14 [报告]
发表于 2017-01-05 18:13 |只看该作者
1.你遇到过哪些的坑让你印象深刻?你是如何解决的。
  我也谈谈HA的坑,遇到奇葩的现象,平时没问题,人稍微一多就卡,而且一会就好,经过各种检查发现,业务场景是长链接,配置的是按短链接做的优化,另外在服务上开启了tcp回收,最后导致正常的连接都被回收了,解决的方案就是优化配置和系统的kernel参数解决
2.有哪些细枝末节的坑你是想提醒一下身边的运维伙伴的?
  运维看文档一定要看官方的,特别是开源软件,很多网上流行的配置,根本不适于你的业务场景
3.谈谈出现坑的主要原因与如何规避它们。
  踩坑的原因就是没有严格测试,通常都是一知半解,另外baidu出来的文章也是参差不齐,各种直接抄的配置会导致各种坑

论坛徽章:
0
15 [报告]
发表于 2017-01-05 19:59 |只看该作者
特别多的坑

论坛徽章:
0
16 [报告]
发表于 2017-01-05 20:50 |只看该作者
谈谈这短短两个月遇到的几个坑吧 。
1  普通用户执行  sudo   ls  /root/ntp*  找不到文件   ROOT           ls  /root/ntp*
   解决办法    sudo  bash  -c  "ls  /root/ntp* "

2  用户test有附加组test1
    当用usermod 删除附加组时   id命令不显示test2
    groups命令还会继续显示附加组为test1  
   解决办法     重新登入 groups命令就会正常


3 背景: 一个计划任务 每分钟会去检测一个服务进程,如果进程不存在则启动
   场景:  卸载该服务
   步骤: 1 删除计划任务
            2 检测进程
            3 如果进程存在则删除进程
           4 删除安装目录
    缺陷: 计划任务会出现间隔定期去读取/etc/crontab的配置文件,步骤1虽然删除了,但是计划任务已经读取进去了。
             在执行完步骤3后,计划任务又把进程拉起来了,造成服务卸载了,但是进程还在。
             下次再安装时该服务会出现异常。
             该问题出现的几率应该在0.5%以下
   解决办法:
           增加步骤5 检测进程是否存在,再kill进程
          就算计划任务在步骤4以后执行,它也拉不起进程了,因为服务的安装目录都被删除了。哈哈

4 ansible异步任务的两个坑

   坑1
   shell:xxxx
   async:
   poll:
     args:
      chdir:   
  后面的这个chdir压根没作用!有木有

   坑2
   还是
     async:
   poll:  
   如果用该异步任务实现shell去产生另一个异步任务,另一个异步任务有几率不会真正执行!概率高达10%左右

5 端口的一个坑
   这是几个月前遇到的问题了
   web服务器别绑定87号端口!!!!
   浏览器默认不让访问


评分

参与人数 1信誉积分 +5 收起 理由
Fl_wolf + 5 赞一个!

查看全部评分

论坛徽章:
40
水瓶座
日期:2013-08-15 11:26:422015年辞旧岁徽章
日期:2015-03-03 16:54:152015年亚洲杯之乌兹别克斯坦
日期:2015-03-27 14:01:172015年亚洲杯之约旦
日期:2015-03-31 15:06:442015亚冠之首尔
日期:2015-06-16 23:24:37IT运维版块每日发帖之星
日期:2015-07-01 22:20:002015亚冠之德黑兰石油
日期:2015-07-08 09:32:07IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-10-10 06:20:00IT运维版块每日发帖之星
日期:2015-10-11 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
17 [报告]
发表于 2017-01-06 09:21 |只看该作者
挖坑给自己跳

论坛徽章:
5
IT运维版块每日发帖之星
日期:2015-08-25 06:20:002017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:33:2115-16赛季CBA联赛之新疆
日期:2018-04-23 13:55:2315-16赛季CBA联赛之辽宁
日期:2018-07-23 08:59:12
18 [报告]
发表于 2017-01-06 11:23 |只看该作者
回复 3# 撒加

是的,你回复的C点,没有先从理论出发而是做了再去补锅,这个是现在大部分运维都会出现的一个问题。

论坛徽章:
5
IT运维版块每日发帖之星
日期:2015-08-25 06:20:002017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:33:2115-16赛季CBA联赛之新疆
日期:2018-04-23 13:55:2315-16赛季CBA联赛之辽宁
日期:2018-07-23 08:59:12
19 [报告]
发表于 2017-01-06 11:24 |只看该作者
回复 4# cjfeii

我印象如果没错的话 在 centos 6.5以上的版本 这个命令都不可以打了吧。 他会弹出,这个是危险命令不能直接操作。

论坛徽章:
5
IT运维版块每日发帖之星
日期:2015-08-25 06:20:002017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:33:2115-16赛季CBA联赛之新疆
日期:2018-04-23 13:55:2315-16赛季CBA联赛之辽宁
日期:2018-07-23 08:59:12
20 [报告]
发表于 2017-01-06 11:26 |只看该作者
回复 5# apen

是的,所以很多繁琐的工作,都可以交给自动化去执行。但是说的那个 责任的细分,但是遇到摔锅的开发,那又怎么处理呢?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP