6月22日,全国人民正沉浸在端午假期第一天的放松与愉悦中,但设计公司的部分员工还在家中远程工作。傍晚17点45分,公司微信群里突然出现了这样一条信息:
“204服务器上不去了”。
正是这简简单单的一句话,拉开了行政管理中心信息专员姚旭为期二十余天辛勤工作的序幕。
事发突然 妥善应对
22日当天,姚旭正在家里陪着9月初预产的妻子聊天。看到群里信息后,他立即回复同事、询问详细情况、开展远程排查;但在排除几种常规故障后,依旧无法判断服务器访问异常的原因出在哪里。该服务器作为公司的NAS存储服务器,访问需求迫切,姚旭决定第二天去公司加班排查故障,并提前联系了服务器专业运维人员。
23日早9点,姚旭协同两名运维人员驾车赶到公司。经过一个多小时的仔细检查,三人形成初步判断:问题应该出在服务器的硬盘上。
10点半开始,三个人立即开展了全面的服务器排查工作,没想到一干就是四个小时。在对服务器端操作系统及总共12块硬盘检测一遍后,检测小组得出结论:有两块(同组)硬盘出现了故障,导致磁盘阵列崩溃、系统无法运行,所有用户无法登录及访问服务器。
更加雪上加霜的事情还在后面:设计公司服务器的磁盘阵列采取了RAID 5模式,只允许单盘故障,系统才会通过算法将数据重组恢复。在这种模式下,如果损坏的硬盘只有一块,那么维修起来会比较方便,直接替换损坏硬盘即可;若反之,损坏两块及以上硬盘,就只能采取修复盘体、强制上线或者镜像备份等方式尝试恢复数据,后期再重建RAID与FreeNAS系统(一种专门针对网络存储设计和优化的操作系统)。
很不幸,公司此次刚好遇到了第二种情况。怀着复杂的心情,姚旭让两名运维人员把服务器及硬盘搬离机房,运至专业机构进行维修。
当天恰逢北京高温,机房空调系统出现故障,机房温度超过40摄氏度。离开公司之际,三人已是汗流浃背、饥肠辘辘。
长期作战 不辱使命
自6月25日上班开始,姚旭经历了二十天的长期作战。
经运维人员测算,设计公司服务器硬盘中总共存储了约40TB的数据,其中不重复的有效数据约25TB,主要关系到各个生产部门的设计咨询、生产经营工作。
由于数据总量过于庞大,维修机构只能采取最为保险的方式:完整镜像备份故障RAID中所有硬盘,基于镜像文件分析,进行数据重组及提取工作,将数据导入大容量移动硬盘内,最后寄回姚旭手中。在此情况下,姚旭每天在初步核验数据后,只能向公司备用服务器上传约1TB的数据。先恢复哪个部门的数据、后恢复哪个部门的数据,就成了一道颇难抉择的考题。
在三周的时间内,姚旭不断与各个部门开展沟通,根据工作缓急程度,统筹安排数据上传顺序。期间虽有个别性急的部门员工表达过优先上传本部门数据的意见与理由,终被姚旭手中详细编制、入情入理的数据恢复方案所打动,转而采取支持理解的态度。
“凡事预则立,不预则废。有了这份方案,不但生产部门同事和我吵架吵不起来,各生产部门之间应该也不会产生意见。咱们干工作本来是为了解决矛盾的,要是因为我的疏忽产生了不必要的矛盾,那不就‘越帮越忙’了吗?”
截止7月14日,数据传输工作已完成约90%。
事无巨细 一力承担
据姚旭估计,数据上传工作7月中旬即可结束,接下来还要实施重建RAID、重装服务器系统、更新域控权限、同步主服务器与备份服务器数据等工作。照此推断,公司服务器NAS系统整体修复工作预计8月份才能完成。
在此期间,姚旭还要完成复印机租赁招标、集团信息化经费分摊、办公网络专线费用支付、财务系统历史数据核销、协助财务函证对账等杂项工作,同时落实集团公司2023年网络安全演练相关工作,拟定执行方案。
聊到这里,这位准爸爸也不免感叹:最近确实挺忙的。
“不过呢,忙点儿也好,忙起来心里踏实,忙起来才能体现自身的价值。咱们既然吃的是网络信息这口饭,就要干好网络信息这摊活儿。小宝贝儿就要出生了,这个夏天之所以忙,也保不齐是TA给我来了一个小考验。毕竟,更大的考验还在后面呢。”
——只见姚旭满脸的温柔与幸福。(撰稿:王沈浩)
来源:中华网
主办:华夏经纬信息科技有限公司 版权所有 华夏经纬网
Copyright 2001-2024 By www.huaxia.com