一个成熟的网络管理机构一般都制定有一整套完整的故障管理日志记录机制,同时人们也率先把专家系统和人工智能技术引进到网络故障管理中心。但对于大多数初学网络的人来说,这未免有点过于复杂,不过没关系,我来帮大家总结一下网络故障诊断和排除的方法和经验,供各位网管和菜鸟参考。
我们可以根据网络故障的性质把网络故障分为物理故障与逻辑故障,也可以根据网络故障的对象把网络故障分为线路故障、路由故障和主机故障。
下面首先介绍按照网络故障不同性质而划分的物理故障与逻辑故障。
1.物理故障
物理故障指的是设备或线路损坏、插头松动、线路受到严重电磁干扰等情况。比如说,网络管理人员发现网络某条线路突然中断,首先用ping或fping检查线路在网管中心这边是否连通。
ping的格式为:ping www.cisco.com或ping 192.168.0.1 (192.168.0.1是IP地址,可以是主机的IP也可以是网络中另一台计算机的IP)。ping一般一次只能检测到一端到另一端的连通性,而不能一次检测一端到多端的连通性,但fping一次就可以ping多个IP地址,比如C类的整个网段地址等。顺便多说一句,网络管理员经常发现有人依次扫描本网的大量IP地址,不一定就是有黑客攻击,fping也可以做到。如果连续几次ping都出现"Requst time out"信息,表明网络不通。这时去检查端口插头是否松动,或者网络插头误接,这种情况经常是没有搞清楚网络插头规范或者没有弄清网络拓扑规划的情况下导致的。
另一种情况,比如两个路由器Router直接连接,这时应该让一台路由器的出口连接另一台路由器的入口,而这台路由器的入口连接另一路由器的出口才行。当然,集线器Hub、交换机、多路复用器也必须连接正确,否则也会导致网络中断。还有一些网络连接故障显得很隐蔽,要诊断这种故障没有什么特别好的工具,只有依靠经验丰富的网络管理人员了。
2. 逻辑故障
逻辑故障中最常见的情况就是配置错误,就是指因为网络设备的配置原因而导致的网络异常或故障。配置错误可能是路由器端口参数设定有误,或路由器路由配置错误以至于路由循环或找不到远端地址,或者是路由掩码设置错误等。比如,同样是网络中的线路故障,该线路没有流量,但又可以ping通线路的两端端口,这时就很有可能是路由配置错误了。遇到这种情况,我们通常用“路由跟踪程序”就是traceroute,它和ping类似,最大的区别在于traceroute是把端到端的线路按线路所经过的路由器分成多段,然后以每段返回响应与延迟。如果发现在traceroute的结果中某一段之后,两个IP地址循环出现,这时,一般就是线路远端把端口路由又指向了线路的近端,导致IP包在该线路上来回反复传递。幸好traceroute可以检测到哪个路由器之前都能正常响应,到哪个路由器就不能正常响应了。这时只需更改远端路由器端口配置,就能恢复线路正常了。
逻辑故障的另一类就是一些重要进程或端口关闭,以及系统的负载过高。比如也是线路中断,没有流量,用ping发现线路端口不通,检查发现该端口处于down的状态,这就说明该端口已经关闭,因此导致故障。这时只需重新启动该端口,就可以恢复线路的连通了。还有一种常见情况是路由器的负载过高,表现为路由器CPU温度太高、CPU利用率太高,以及内存剩余太少等,如果因此影响网络服务质量,最直接也是最好的办法就是——更换路由器,当然换个好点的。(如果你有银子的话)
网络故障根据故障的不同对象也可以划分为:线路故障、路由故障和主机故障。
1. 线路故障
线路故障最常见的情况就是线路不通,诊断这种情况首先检查该线路上流量是否还存在,然后用ping检查线路远端的路由器端口能否响应,用traceroute检查路由器配置是否正确,找出问题逐个解决。方法在前面已经提过,这里就不多说了。
2. 路由器故障
事实上,线路故障中很多情况都涉及到路由器,因此也可以把一些线路故障归结为路由器故障。检测这种故障,需要利用MIB变量浏览器,用它收集路由器的路由表、端口流量数据、计费数据、路由器CPU的温度、负载以及路由器的内存余量等数据,通常情况下网络管理系统有专门的管理进程不断地检测路由器的关键数据,并及时给出报警。而路由器CPU利用率过高和路由器内存余量太小都将直接影响到网络服务的质量。解决这种故障,只有对路由器进行升级、扩大内存等,或者重新规划网络拓扑结构。
3. 主机故障
主机故障常见的现象就是主机的配置不当。像主机配置的IP地址与其它主机冲突,或IP地址根本就不在子网范围内,由此导致主机无法连通。主机的另一故障就是安全故障。比如,主机没有控制其上的finger,RPC,rlogin等多余服务。而攻击者可以通过这些多余进程的正常服务或bug攻击该主机,甚至得到Administrator的权限等。还有值得注意的一点就是,不要轻易的共享本机硬盘,因为这将导致恶意攻击者非法利用该主机的资源。发现主机故障一般比较困难,特别是别人恶意的攻击。一般可以通过监视主机的流量、或扫描主机端口和服务来防止可能的漏洞。最后提醒大家不要忘了安装防火墙,因为这是最省事也是最安全的办法。