网络环境大文件传输异常中断问题解析
作者:王少峰
来源:《中国金融电脑》 2017年第9期
    一、问题描述
    2017 年4 月,某商业银行数据中心测试云网络与传统网络环境服务器之间通过SCP 方式拷贝大文件,操作过程中出现间断性失败。具体故障表现为:传统网络环境中一台物理服务器(IP 地址简称为“A”)向测试云网络环境中一台虚拟机(IP 地址简称为“B”)拷贝数据,使用SCP 拷贝一个200G 左右大文件时出现异常中断,中断时间随机,部分数据拷贝无法正常完成。
    该测试云基于业界主流的网关+Spine+Leaf 交换机组网方式,由20 余台路由交换设备,3 台SDN 控制器等设备组成。目前测试云架构如图1 所示。
    其中:
    (1) VS1 节点作为云网络环境出口,与传统网络交换核心设备互联互通。
大文件发送    (2)VS0 节点作为整个测试云业务的三层网关,同时也是VXLAN 网络的边界交换机,连接SDN 网络和传统网络。
    (3) VS0 和VS1 之间逻辑上串联防火墙设备,对进出测试云的数据进行访问控制。
    (4) VS0、SPINE 节点和Leaf 节点构成整个测试云SDN 网络。Underlay 平面通过三层接口互联,运行OSPF 动态路由;Overlay 平面,运行VXLAN 协议,VS0 与Leaf 节点作为VXLAN 的二层网关,承担VXLAN 的封装、解封装。
    (5)业务服务器直接连接到Leaf 节点,其中,VS0 与VS1 节点为支持云网络架构的高端型号交换机,通过机箱虚拟化技术(Virtual System)实现将一台物理设备虚拟成两个相互隔离的逻辑系统。
    二、原因分析过程
    1. 发现问题
    (1)问题第一次出现时,在A 服务器上,使用TCPDUMP 命令抓包,发现A 收到了一个源地址为B发送的RST 报文,TTL 是253。初步确定是由于A 服务器收到异常RST 报文后中断TCP 链接导致大文件拷贝失败。