大家在做运维的工作中,是否经常会遇到一些棘手的故障,却又不知道从何下手。下面我们整理了一些排障思路框架步骤,用于帮助大家捋捋思路,能更高效的去解决问题。
在遇到故障时,首先不能慌,慌了就容易乱,思路要是乱了,就很难找到故障的切入点,第一步就是要稳住心态。下面给出一些排错思路以供参考:
常见的故障分为三类:
首先可能是物理层故障/硬件故障,比如网线、设备、光纤、板卡、水晶头等等。
基础的网络不通一般都是在物理层就能解决,尤其是傻瓜式交换机路由器,一般都可能是水晶头需要重打,网线需要换一根,设备故障,重启一下等等。
其次就是数据链路层/交换故障:比如确认接口的工作模式是否匹配、接口速率设置是否正确、VLAN配置是否正确、MAC地址表是否学习到了对端的MAC地址、链路层协议是否正常运行(PPP、HDLC等等)、是否有异常流量波动、检查接口错误统计信息等等。
这个就需要到交换机连接电脑用命令或者在路由器后台查看,具体的命令我们这里就不写了,网上都能查得到,我们主要是提供一些排错思路
再然后就是网络层/路由故障:IP有没有配置错误、NAT转换配置是否正确,是否正常工作、可以试下用ping命令来接测网络数据是否能够到达,如果ping不通可以用traceroute或tracert命令来追踪数据包在哪个节点出现了故障、还有访问控制是否有不合理的规则、也可以查看设备日志信息,有哪些错误信息。
常见的排查方法有:
通过测试工具或者对比法、替换法,分段排查法判断。
比如开不了机,更换电源线尝试,如果正常了,就是上一条电源线损坏了,如果是网线也可以用测线仪排查等等。
或者使用软件抓包分析(如Wireshark)、排除干扰法等等。
数据链路层故障最主要看arp表和路由表、网络故障最主要看MAC地址表。
也可以看端口状态表、NAT转换表、访问控制列表、DHCP服务器租约表等等。
注:所有的网络故障都可以用osi模型来结构思路进行排查
以上的排错思路值得参考,可以帮助我们快速排除故障,解决问题!