网站地图 | 产品中心 | 联系我们 欢迎您的光临!我们竭诚为您服务!真诚沟通!互动双赢!

咨询热线

18011863066

当机房服务器异常时,要这样做!
时间: 2018-11-28 14:36  来源: 未知  作者: hqadmin
一、机房环境
 

 

1、温度与湿度:

 

 

最佳工作温度:20-25摄氏度

 

极限工作温度:10-40摄氏度

 

湿度:8-80%(在23摄氏度条件下)

 

2、机房要保证服务器清洁, 若空气灰尘过多,很容易造成资源读写错误、磁盘机中磁盘或读写磁头毁损,需要定期用皮老虎、刷子清除服务器灰尘。

 

二、电源
 

 

1、电压:要求电压稳定,尖峰电压会损坏设备。

 

2、电压范围:220V +/- 10%,即200-240V,50-60Hz。

 

3、电源功率:视机器类型和系统配置而定。

 

4、电源线:标准的零、地、火三相电, 其中零、地电压不得超过3.0。

 

 5、电源接驳:用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作,使用稳压电源和UPS,对于冗于电源的接入采用两路单独输入。

 

三、硬件检查
 

 

1、检查服务器、磁阵的安装、电源线主机接线是否符合要求。

 

2、服务器状态检查

 

(1)当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息显示。

 

(2)当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。可以通过查询相关机型的面板报警数字信息找出告警原因,情况严重的要立即通知服务器厂商进行问题排查。

 

(3)当服务器的状态灯出现橙黄色时,说明有硬件告警,此时要检查磁柜的电源、接线、硬盘。如果有硬件故障,则立即进行更换和更正如果查不出具体问题,需要联系相关厂商进一步诊断。

 

(4)当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色。如无读写,则绿灯一直亮如该硬盘有读写操作,则绿灯会不规则闪烁,当硬盘损坏时或RAID出现问题时,则硬盘状态灯将熄灭,或者呈闪烁状态:以13秒的频率有规律的不断闪烁。

 

四、系统日常维护流程
 

 

1、系统启动

 

系统启动正常顺序如下: 首先对外设(磁盘阵列、磁带库)加电待所有外设加电自检完成后,主机加电正常起机;主机加电后才能按POWER键起机。

 

2、系统关闭

 

服务器系统关闭时,需要确认服务器的服务是否对现网业务有影响,同时需要对关闭的服务器运行中的程序进程确认,明确软件安全的关闭步骤,再进行关机操作。

 

3、系统与数据备份

 

有效及时的系统备份是系统管理非常重要的一环。当系统出现故障时,特别是文件系统被严重损坏或硬盘损坏时,需要使用系统备份来恢复系统。

 

(1)新装机:在硬件及系统软件安装完成后,应做系统备份。

 

(2)软件改动:系统软件或应用软件有改动时,应做系统备份。

 

(3)定期备份:对系统进行定期备份,最好每三个月做一次备份。

 

4、系统恢复

 

当系统发生比较严重的故障,不能在短期内恢复原系统时,可与上级确认后,将最近一次的系统备份倒回机器内,让系统恢复至最近一次做备份时的环境,再将当日的数据备份再倒回系统内,最后系统可恢复正常运行。事后应当与厂商进行整个事件的全面分析与回顾,找到故障发生的原因,并采取相应措施杜绝类似事件再次发生。

 

(1)定期进行系统备份。

 

(2)当系统变更或进行操作系统补丁安装时,必须做一次系统备份。

 

(3)在发现硬盘故障时,应进行数据备份;更换硬盘时,应确认当天数据备份是否已经完成。

 

(4)更换敏感的电子元件时一定要防静电。

 

(5)插拔外围设备时,把外围设备下电。

 

(6)进行文件删除时,需留意当前路径是否正确。

 

(7)进行文件解压缩时,需留意参数和路径。

 

五、故障定位与排除
 

 

根据实际运行系统中碰到的问题,总结了一下几种常见的故障及解决方法。

 

1、硬件故障

 

硬件故障有很多种,对系统产生的影响也不同。按照故障对系统的影响程度可分致命影响的硬件故障和只影响功能的硬件故障。

 

对系统产生致命影响的硬件包括:主板、CPURAID卡、电源模块、风扇、本地硬盘、内存等。这些设备的损坏可使系统无法完成自建、引导和启动,可根据液晶显示屏上的错误码对照错误原因。如果是在工作状态下出现这些硬件问题,系统会被挂起或宕机。

 

只对系统产生功能影响的硬件包括:网卡、本地硬盘、显卡和其他外围设备,这些设备的损坏会影响网络功能、显示功能、访问磁阵功能等。对于本地硬盘有坏快的情况,则要看坏块中是否包含重要的系统文件,如果不是重要系统文件,系统功能不受影响,建议立即更换硬盘。

 

故障定位和排除:液晶屏上的错误码

 

根据错误码确定是什么硬件出现故障,在服务器离线不影响用户使用的情况下,对故障进行修复,恢复系统。

 

2、磁阵故障

 

磁阵引起的故障时最繁琐和危害最大的,据不完全统计,其故障率高达70%以上。可能引起磁阵故障的环节包括:磁阵硬盘、主机上的RAID卡、与主机相连的SAS线、硬盘的位置和接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/RAID卡等。

 

物理损坏、环境等是磁阵故障的主要因素,接线、插盘位置不符合要求,未及时查看系统告警等造成系统中断都会引起磁阵故障。

 

当存在硬件故障时,可从状态灯上观察到当单块硬盘出现故障时,其面板上的硬盘状态灯不会亮,阵列的状态灯会亮。服务器的阵列所配置的RAID卡一般带有一块充电电池,可在突然提点的情况下使用。