一、按网络故障的性质划分
1.物理故障
物理故障,是指设备或线路损坏、插头松动、线路受到严重电磁干扰等情况。比如说,网络中某条线路突然中断,如已安装网络监控软件就能够从监控界面上发现该线路流量突然掉下来或系统弹出报警界面,更直接的反映就是处于该线路端口上的无线电管理信息系统无法使用。
解决方法:首先用DOS命令集中的PINg命令检查线路与网络管理中心服务器端口是否连通,如果不连通,则检查端口插头是否松动,如果松动则插紧,再用ping命令检查,如果已连通则故障解决。也有可能是线路远离网络管理中心的那端插头松动,则需要检查终端设备的连接状况。如果插口没有问题,则可利用网线测试设备进行通路测试,发现问题应重新更换一条网线。
另一种常见的物理故障就是网络插头误接。这种情况经常是没有搞清网络插头规范或没有弄清网络拓扑结构的情况下导致的。
解决方法:熟悉掌握网络插头规范,如T568A和T568B,搞清网线中每根线的颜色和意义,做出符合规范的插头。
还有一种情况,比如两个路由器直接连接,这时应该让一台路由器的出口连接另一路由器的入口,而这台路由器的入口连接另一路由器的出口才行,这时制作的网线就应该满足这一特性,否则也会导致网络误解。不过像这种网络连接故障显得很隐蔽,要诊断这种故障没有什么特别好的工具,只有依靠网络管理的经验进行解决。
2. 逻辑故障
逻辑故障中的一种常见情况就是配置错误,就是指因为网络设备的配置原因而导致的网络异常或故障。配置错误可能是路由器端口参数设定有误,或路由器路由配置错误以致于路由循环或找不到远端地址,或者是网络掩码设置错误等。比如,同样是网络中某条线路故障,发现该线路没有流量,但又可以Ping通线路两端的端口,这时很可能就是路由配置错误导致循环了。
解决方法:诊断该故障可以用traceroute工具,可以发现在traceroute的结果中某一段之后,两个IP地址循环出现。这时,一般就是线路远端把端口路由又指向了线路的近端,导致IP包在该线路上来回反复传递。这时需要更改远端路由器端口配置,把路由设置为正确配置,就能恢复线路了。当然处理该故障的所有动作都要记录在日志中,防止再次出现。
逻辑故障中另一类故障就是一些重要进程或端口关闭,以及系统的负载过高。比如,路由器的SNMP进程意外关闭或死掉,这时网络管理系统将不能从路由器中采集到任何数据,因此网络管理系统失去了对该路由器的控制。还有,也是线路中断,没有流量,这时用ping发现线路近端的端口ping不通。
解决方法:检查发现该端口处于down的状态,就是说该端口已经给关闭了,因此导致故障。这时只需重新启动该端口,就可以恢复线路的连通了。
此外,还有一种常见情况是路由器的负载过高,表现为路由器CPU温度太高、CPU利用率太高,以及内存余量太小等,虽然这种故障不能直接影响网络的连通,但却影响到网络提供服务的质量,而且也容易导致硬件设备的损害。
二、按网络故障的对象划分
1.线路故障
线路故障最常见的情况就是线路不通,诊断这种故障可用ping检查线路远端的路由器端口是否还能响应,或检测该线路上的流量是否还存在。一旦发现远端路由器端口不通,或该线路没有流量,则该线路可能出现了故障。这时有几种处理方法。首先是ping线路两端路由器端口,检查两端的端口是否关闭了。如果其中一端端口没有响应则可能是路由器端口故障。如果是近端端口关闭,则可检查端口插头是否松动,路由器端口是否处于down的状态;如果是远端端口关闭,则要通知线路对方进行检查。进行这些故障处理之后,线路往往就通畅了。如果线路仍然不通,一种可能就得线路本身的问题,看是否线路中间被切断;另一种可能就是路由器配置出错,比如路由循环了。就是远端端口路由又指向了线路的近端,这样线路远端连接的网络用户就不通了,这种故障可以用traceroute来诊断。解决路由循环的方法就是重新配置路由器端口的静态路由或动态路由。
2.路由器故障
事实上,线路故障中很多情况都涉及到路由器,因此也可以把一些线路故障归结为路由器故障。但线路涉及到两端的路由器,因此在考虑线路故障是要涉及到多个路由器。有些路由器故障仅仅涉及到它本身,这些故障比较典型的就是路由器CPU温度过高、CPU利用率过高和路由器内存余量太小。其中最危险的是路由器CPU温度过高,因为这可能导致路由器烧毁。而路由器CPU利用率过高和路由器内存余量太小都将直接影响到网络服务的质量,比如路由器上丢包率就会随内存余量的下降而上升。检测这种类型的故障,需要利用MIB变量浏览器这种工具,从路由器MIB变量中读出有关的数据,通常情况下网络管理系统有专门的管理进程不断地检测路由器的关键数据,并及时给出报警。而解决这种故障,只有对路由器进行升级、扩内存等,或者重新规划网络的拓扑结构。
另一种路由器故障就是自身的配置错误。比如配置的协议类型不对,配置的端口不对等。这种故障比较少见,在使用初期配置好路由器基本上就不会出现了。
3.主机故障
主机故障常见的现象就是主机的配置不当。比如,主机配置的IP地址与其他主机冲突,或IP地址根本就不在子网范围内,这将导致该主机不能连通。如泰州无线电管理处的网段范围是172.17.14.1—172.17.14.253,所以主机地址只有设置在此段区间内才有效。还有一些服务设置的故障。比如E-Mail服务器设置不当导致不能收发E-Mail,或者域名服务器设置不当将导致不能解析域名。主机故障的另一种可能是主机安全故障。比如,主机没有控制其上的finger,rpc,rlogin等多余服务。而恶意攻击者可以通过这些多余进程的正常服务或bug攻击该主机,甚至得到该主机的超级用户权限等。
另外,还有一些主机的其他故障,比如不当共享本机硬盘等,将导致恶意攻击者非法利用该主机的资源。发现主机故障是一件困难的事情,特别是别人恶意的攻击。一般可以通过监视主机的流量、或扫描主机端口和服务来防止可能的漏洞。当发现主机受到攻击之后,应立即分析可能的漏洞,并加以预防,同时通知网络管理人员注意。现在,各市都安装了防火墙,如果防火墙地址权限设置不当,也会造成网络的连接故障,只要在设置使用防火墙时加以注意,这种故障就能解决。