服务器 2022-02-24

KunTai R522 SP333网卡重传问题

一、现网描述

1.1  环境描述

设备型号:KunTai R522

硬件配置:

2块480GB SSD做的RAID1安装系统

RAID卡:MegaRAID 9440-8i

网卡:2张SP333网卡(MT27710 Family [ConnectX-4 Lx])

系统:CentOS Linux release 7.6.1810 (AltArch)、Linux version 4.14.0-115.el7a.0.1.aarch64

image.png

1.2  拓扑描述

image.png


二、故障描述

2.1  故障现象

使用iperf3工具压测网络存在重传问题,服务器网卡型号为sp333

连接交换机通过iperf3测试,流量在4G以下的话不存在重传,超过4G会存在大量重传。

image.png

image.png

2.2  故障影响

由于IP协议的不可靠性和网络系统的复杂性,少量的报文丢失和TCP重传是正常的,但是如果业务交互过程中,存在大量的TCP重传,会严重影响业务系统交互的效率,导致业务系统出现缓慢甚至无响应的情况发生。一般而言,出现大量TCP重传说明网络通讯的状况非常糟糕,需要站在网络层的角度分析丢包和重传的原因。


三、问题分析

3.1  排查思路

1、  通过BMC日志查看服务器无硬件告警

image.png

2、  查看网卡参数信息及驱动固件版本正常

image.png

image.png

image.png

注:已尝试更新过网卡驱动和固件版本依然存在重传问题 

驱动版本:5.0更新至5.3-1.0.0

固件版本:14.20.1010 更新至14.31.1014

3.2  原因分析

按照以上情况对网卡进行调优设置:

1、  配置服务器能效模式,将Efficiency改为Performance。

image.png

2、修改TX RX buff参数值。

a)查看当前Current hardware settings配置ethtool -g ethN

(ethN为网卡端口号,根据实际网卡名称修改)

b)修改RX and TX Buffer值,使用ethtool –G ethN rx Pre-set maximums tx Pre-set maximums

举例:ethtool –G eno1 rx 8192 tx 8192

(ethN为网卡端口号,根据实际网卡名称修改;Pre-set maximums为上述ethtool -g ethN命令回显值)

配置后再使用ethtool –g eno1确认下Current hardware settings是否修改成功。

注:原当前设置为1024

image.png

3.3 测试结论

按照对网卡调优配置、更换麒麟、欧拉系统做流量压测也存在大量重传,排除硬件、操作系统、固件驱动的问题,疑似现网中交换机侧问题。根据原因分析测试:

两台服务器直连或更换其它厂家交换机,重传问题没有复现;

image.png


四、问题解决

4.1  解决办法

经过分析测试已排除服务器侧问题,最终排查结果为客户现场的网络问题导致重传,由交换机厂商做后续跟进处理。

4.2  分析总结

网卡测试存在重传问题,按照分析思路步骤确定问题根因,首先排除硬件、操作系统、固件驱动版本因素,再排查现网中其他设备问题。本案例中,经交换厂商排查,重传问题与客户使用的交换机型号及单链路部署形式有关,当流量过大时超出了现网流量转发性能。