用户访问互联网需要通过很多网络节点,如交换机、防火墙、ips、防毒墙、流量控制、负载均衡设备等,一旦出现不能上网的情况,每个节点都会是可疑的故障节点,大大增加了维护人员的排查工作量。本案例将详细讲解如何迅速精准定位故障节点。
某单位部分用户通过互联网访问web页面时,可以正常打开两到三个页面,之后再也无法正常打开其它页面,而这些用户在访问单位内部网页时却无此异常现象。
该单位网络结构如下图所示。
图 13-1
从结构图上可以看出,用户在进行互联网web访问时,数据包除了经过接入层交换机和核心交换机外,中间还经过流控设备和防火墙。
由于用户访问单位内部网页时状态正常,在访问互联网web页面时才出现故障现象。通过对两种情况进行对比分析发现:用户对外网的访问路径只增加了交换机、流控设备和防火墙节点,而交换机只是对数据进行单纯的转发,并未对用户进行策略上的限制。因此,我们初步判断可疑故障点为流控设备节点或防火墙节点。
图 13-2
观察故障现象,我们定位了流控设备和防火墙这两个可疑故障点。首先对流控设备可疑故障点进行排查:将核心交换机和防火墙直接相连,使数据包传输跳过流控设备。观察用户进行互联网web页面访问的情况,发现问题依旧存在。那么可以得出结论,故障问题与流控设备无关。
由于防火墙工作处于路由模式下,我们无法将其透明过去,只能通过对数据包抓取和分析,来定位故障产生原因。因此开启防火墙抓包功能,并在防火墙后端利用科来网络回溯分析系统抓取通信的数据包。
图 13-3
从防火墙后端抓取访问异常现象的数据包,如下图。
图 13-4
观察上图可以发现:用户在访问web页面时,主机向外网地址发送了syn同步请求数据包,但是没有外网地址发给主机的syn/ack回应数据包,tcp会话的三次握手未能建立成功,导致页面出现无法打开的故障现象。
抓取防火墙产生的数据包,如下图。
图 13-5
观察上图发现:防火墙能收到内网主机访问外网的syn同步请求数据包(图中s代表syn数据包),同样没有syn/ack的回应数据包,tcp三次握手没有建立成功。
通过数据包的分析,可以得出结论:由于防火墙性能异常或者配置不当,将所有外网地址对内网主机的回应数据包,进而导致访问出发生故障。通过联系防火墙厂商对设备进行检测调试后,成功解决该故障。下图是问题解决后在防火墙上抓取的数据包。
图 13-6
科来网络回溯分析系统拥有对数据包强大的采集、分析能力,面对此类具有不定时、难复现的业务故障,可通过多点监控方式,快速掌握各关键节点的数据流动情况,迅速发现网络丢包异常,准确定位丢包节点,从而大大节省了排障时间。