服务器 2022-02-24

KunTai R722安装中标麒麟系统失败

一、环境描述

设备型号:KunTai R722

硬件配置:

4块480G SSD硬盘做的RAID10,用来装系统

RAID卡:9460-16i

OS:NeoKylin-Server-7.0-aarch64-Release-Build06.08-lic-20191206.iso


二、故障描述

故障现象:在安装系统过程中,重启无法找到root分区

image.png


三、问题分析

3.1  排查思路

1、BMC上只有PSU2告警信息,经现场工程师确认,只插了PSU1电源,此告警是因为电源模块没插导致,所以无需关注;

image.png

2.在BMC上查看RAID卡信息,显示RAID卡状态是NA,下面硬盘状态显示NA,在OS侧执行如下命令,进入dev下ls,发现未识别到硬盘。

image.png

3.进入BIOS查看RAID配置

进入BIOS查看RAID配置,发现RAID状态正常,硬盘也都是online;于是刷新下BMC,发现BMC上面RAID卡状态和硬盘状态都显示出来了,且注意到RAID卡的FW为:5.110.00-2706,此时BMC上还是只存在PSU2的告警。清空RAID配置信息,重组RAID10后安装系统,在选择磁盘时发现不了磁盘,重新扫描也不行,反复测试了几次,排除RAID问题。(此操作需谨慎,该客户的设备为新设备,无数据)

image.png

4.登陆BMC查看,发现有个告警在每次重启必现,于是进入bios,发现raid卡driver是healthy的,不需要修复,怀疑跟RAID卡固件相关

image.png

5.升级RAID卡FW

若用SmartProvisioning升级,需注意SmartProvisioning版本,必须要V132/134版本,且需要下载cms签名文件,然后用java控制台打开KVM,将软件包和签名文件放在同一个文件夹中,然后以文件夹的方式挂载。升级完成后,用kvm打开安装界面,系统已经自动进入安装下一步,安装成功。

image.png

3.2  原因分析

最终定位raid卡(型号9460-16i)固件版本(5.110.00-2706)过低,最终通过升级Raid卡固件版本到5.130.00-3059解决

 

四、问题解决

4.1  解决办法

升级RAID卡固件至推荐版本

4.2  分析总结

安装系统过程中,应多注意安装进度到哪一步,比如这次的报错是找不到分区/磁盘,就应该关注RAID卡和硬盘,然后重新复现下问题,在复现的过程中注意BMC界面的告警提示信息,然后逐步排查。