
從新冠疫情防疫戰(zhàn)看數據中心發(fā)展的挑戰(zhàn)與機遇
數據中心運維管理對象涉及到機房建筑、機電設備、IT設備、IT系統(tǒng)、數據、人員以及制度流程等,管理目標包括實現收益、規(guī)范高效、控制風險、優(yōu)化資源等諸多方面。數據中心系統(tǒng)構成和相關方訴求的多元化對數據中心運維管理提出多維度的要求。
目前,數據中心管理過程中的管理標準、作業(yè)標準、維護標準、巡檢標準、數據記錄的格式標準以及報告報表等匯總材料的格式與取值方法都存在巨大差異,這就造成了不同部門、不同職能以及不同崗位人員在數據記錄、統(tǒng)計與管理上也存在差異。因此,在出現跨職能或特定崗位人員變動時,對于管理所必須的基礎數據就會存在很大風險。很難發(fā)現影響數據中心可用性的潛在誘因,并最終影響數據中心安全、穩(wěn)定運行。
為實現數據中心管理目標,在應急場景下采取及時、有效的措施,需要有一個把若干個不同的管理體系,通過一定的方式方法,整合在一個架構下運行的一體化管理體系。
下面梳理數據中心體系在新冠肺炎防疫戰(zhàn)中存在的典型問題及相關發(fā)展趨勢。
一、存在問題
(一)負載突增成為數據中心資源整合瓶頸
隨著疫情蔓延,全國學校決定延期開學。同時為了保障學生的學業(yè),選擇“停課不停學”,通過優(yōu)質網上教學資源,開展遠程教學。與此同時,多數企業(yè)已經開啟遠程辦公模式,會議溝通、工作報表、人力管理、財務審計等工作大多遷移至云上,讓員工在家就可以完成多數工作,甚至恢復業(yè)務生產。各種遠程協(xié)調軟件、云服務層出不窮,為遠程辦公帶來了更多選擇。諸如此類為疫情期間學習、工作提供便利的應用林林總總,從幕后走向臺前,使得云數據中心的負載突增。為了保障服務能夠正常運行,云數據中心的計算、存儲、網絡等資源往往需要進行擴容,這就帶來了對底層基礎設施的巨大需求。

但就目前看來,傳統(tǒng)數據中心基礎設施的擴容困難重重:
規(guī)劃設計
數據中心初期設計時期考慮類似本次疫情的彈性突增需求,一方面將導致投資激增,另一方面各系統(tǒng)運行在低負載、低效率的狀態(tài),造成資源的嚴重浪費與高運營成本。以當前行業(yè)現狀,在設計階段留有足夠的可擴用空間的可行性較低。
電氣系統(tǒng)
從電氣系統(tǒng)來看,UPS、供電線路、配電線路的整體可擴展性低。對于一般規(guī)模的數據中心機房來講,機房供電線路的容量問題也是制約數據中心擴容的一項重要因素。并且由于供電線路的擴容改造工程比較復雜,而復雜的施工過程使其對人員技能的依賴非常明顯,會增大誤操作等帶來的斷電風險。雖然UPS的技術已日漸完善與成熟,模塊化的UPS的擴容變得就像直流電源模塊的擴容一樣,推拉之間便可完成增加或更換模塊,完成系統(tǒng)擴容或修復。但是與整機模式相比,模塊化設計模式的單位容量制造成本較高,并且單模塊的容量不宜做得很大,這使得模塊化UPS成本陡增,導致設備整體投資過高。
暖通系統(tǒng)
暖通系統(tǒng)用來向機房提供恒溫、恒濕、潔凈的氣流,擴容時會對空間、承重和供電容量造成壓力。氣流配送時回路中的風阻和風壓的降落也不可忽略,以往的案例中經常出現擴容后無法克服回路風阻和提供足夠的風量而使IT設備超溫的情況。
綜合布線
數據中心如不增加機房面積,擴容時會導致線纜數和線纜密度的增加。大量電纜的體積對連接設備的冷卻效率、壽命,以及機架和數據中心基礎設施的冷卻要求產生重大影響。同時高密度的線纜會造成電磁干擾的增加,也會使暖通制冷設備的功耗大幅上升。

基于以上幾點原因,基礎設施擴容的難題對數據中心應對類似本次疫情的突發(fā)情況彈性擴容、快速部署都提出了新的挑戰(zhàn)。
(二)針對突發(fā)公共事件的應急體系缺失、保障不足
應急處置是數據中心體系中的重要內容,各數據中心基于行業(yè)多年的實踐經驗,對于數據中心發(fā)生的典型應急場景(失電、設備故障、漏水、火災、非法入侵),基本都建立了明確的應急處理體系,保障事件發(fā)生后能做到有章可循、有據可依,及時調度資源應對處置。但是,目前有效的應急處理體系主要覆蓋的是數據中心內部起源的事件事故,對于外部起源的突發(fā)公共事件,缺乏明確認知和應對經驗。
類似于新冠肺炎疫情的場景,如公共衛(wèi)生(非典)、化工爆炸(天津濱海爆炸)、重大環(huán)境污染(化工廠泄露)、自然災害、恐怖襲擊以及其他的突發(fā)公共事件,這類事件針對數據中心的負面影響存在共性,如:
業(yè)務穩(wěn)定受到影響
造成數據中心的保障措施和正常工作的開展受限,不能按照工作計劃保障基礎設施和IT設備的正常運維保障,進而影響業(yè)務的穩(wěn)定性。
數據中心系統(tǒng)壓力陡增
數字化時代,公共事件的發(fā)生往往同時帶來C端和B端線上業(yè)務的大量增長。如本次疫情帶來遠程辦公、視頻會議、在線教育、在線娛樂和電商消費等的需求激增,相關信息處理、存儲量急劇增長,對IT系統(tǒng)運行、計算和存儲需求、網絡帶寬、基礎設施容量等方面均帶來不同壓力。如疫情導致愛奇藝日均用戶提升21%,發(fā)生宕機。
供應鏈短缺
導致外部廠商資源和社會資源受限、物資供應不足、相關需要外部資源支持的工作停滯,采購與招投標延期,使得數據中心重要節(jié)點保障面臨挑戰(zhàn)。
運維難度增加
項目運維人員勞動力不足,極端情況下發(fā)生“無人值守”情況,大部分現場例行運維工作無法實施,運維難度增加、運維效果下降。
威脅人員安全
公共事件下,現場團隊人員人身安全和心理健康受到威脅。數據中心值守人員的心理干預非常重要,人在焦躁狀態(tài)下,更容易出現誤操作。
資源調度范圍廣、難度大
數據中心需要承擔社會責任,在本就有限的人力資源上進行調度,執(zhí)行針對公共事件的應對措施,保障在場人員安全。如本次疫情中,需要配合各級政府管控要求,協(xié)調數據中心相關方資源,建立防疫組織,梳理內外部資源調度、信息溝通機制。
(三)人員、流程、工具的平衡發(fā)展,是數據中心亟待解決的問題
傳統(tǒng)數據中心豎井式部署模式,使得各個應用系統(tǒng)相互孤立,不能共享計算資源,而應用系統(tǒng)與運行平臺、系統(tǒng)、物理資源間的緊耦合,使得物理資源在重新配置時將影響應用系統(tǒng)的運行與穩(wěn)定。這帶來了此次防疫戰(zhàn)中新應用系統(tǒng)難以快速上線、資源利用率低、管理運維難度大等難題。
技術創(chuàng)新驅動了一系列領域的快速發(fā)展和進步,如智能終端、 VR、人工智能、可穿戴設備、物聯網以及基因測序等。這些領域的快速發(fā)展不僅增加了數據中心的規(guī)模建設,而且隨著計算能力以及網絡流量的大幅增加,也越來越離不開數據中心的支撐。

數據中心面臨著人才短缺的關鍵問題。麥肯錫分析研究,到2018年美國在“深度分析”方面將面臨14萬-19萬的人才缺口;在“能夠分析數據幫助決策”方面將面臨150萬的人才缺口。而我國應用需求同樣旺盛,據相關測算,中國大數據市場將面臨100萬人左右的人才缺口。
數據中心是一個多專業(yè),多層面的異構系統(tǒng)(電氣系統(tǒng)、暖通管道系統(tǒng)、安防系統(tǒng)及動力環(huán)境監(jiān)控系統(tǒng)),由此而來的是各個專業(yè)和崗位的維護人員就會采用離散的工具來支撐各自的維護工作。這種管理方式的優(yōu)點是獲取方式簡單,成本相對低廉,但是卻帶來了多方面的問題。
首先,對數據中心運維管理團隊而言,沒有一個統(tǒng)一的視圖獲得所需要的信息,維護多個離散的工具也提高了管理和擁有成本。其次,不同系統(tǒng)之間的數據難以關聯和共享,在進行跨系統(tǒng)數據建模和預測分析的時候尤其困難。最后,工具的不專業(yè)造成對數據中心數據的維護非常痛苦,需要花費大量的時間去更新數據,保持同步,甚至新老數據彼此存在差異。
因此對于數據中心運維管理團隊來說,就迫切需要有一個頂層管理體系及平臺能夠統(tǒng)一、同時管理到IT基礎設施和場地基礎設施,并且同時可以協(xié)助完成多個物理地點同時完成作業(yè)程序的管理及執(zhí)行。

二、發(fā)展趨勢
(一)資源整合方面
微型模塊化數據中心
集IT機柜、制冷、不間斷電源、消防、照明、監(jiān)控、布線、安防等功能模塊于一體,其構成單元均是符合業(yè)內通用規(guī)范的標準化產品,在數據中心施工現場,工人通過簡單的拼裝、連接,即可實現微模塊的整體交付,就像搭起積木一樣簡單、便捷,能夠大大縮短施工周期,降低施工難度,保證工程按時、準確、有序完成。適用于如疫情防控事件中短期、高效建設數據中心。
微模塊模式與傳統(tǒng)數據中心機房相比,優(yōu)勢明顯:
1)能夠有效節(jié)省面積,簡化平面布局難度。以建設一個擁有144個6~8kW標準業(yè)務機柜的項目為例,傳統(tǒng)機房布局需三個功能分區(qū)組成實現,共需730㎡,平均單機柜的占地面積需要5㎡。而微模塊的布局只需要一個功能區(qū),凈面積需520㎡,平均單機柜的占地面積為3.6㎡。
2)便于拆卸和組裝。微模塊由工廠預制、具備工業(yè)化和標準化的特點,能夠方便地拆卸、組裝。工程施工時間短,施工現場便于管理。
3)提升制冷效率。冷池與行間制冷微模塊由兩列設備單元面對面組成,加上通道封閉組件、天窗、側門等自身就實現了冷、熱通道隔離,列間送風距離短、制冷系統(tǒng)控制策略精度高,也可以實現按需彈性制冷,同時這種方式支持高密度負荷。
4)自帶不間斷電源系統(tǒng)。微模塊內部集成了UPS或者240V直流以及蓄電池不間斷電源系統(tǒng)。不同的微模塊可以由不同的電源系統(tǒng)供電,實現了同一房間內多種電源形式混用。
標準化的微模塊為數據中心的智能管理和高效運營提供了便利,方便數據中心運維人員和管理者對數據中心的設備進行全生命周期的維護和管理,為遠程管理提供了基礎保障場景。
集裝箱數據中心
借助于當前成熟的物流行業(yè)經驗,以集裝箱作為數據中心的載體,憑借業(yè)界成熟的海路、空路、鐵路等運輸工具,可以實現數據中心在全球任何地點之間的快速移動和部署,適用于時效性和移動性要求較高的行業(yè)和應用。設備到達用戶現場后,僅需要接上水、電、網絡等基本線路,即可正常工作并向外提供服務。相比傳統(tǒng)機房,從土地審批、機房建設到設備采購、安裝、部署等長達兩三年的部署時間,集裝箱數據中心可以大大縮短前期建設時間和成本投入,降低了對部署環(huán)境的要求,真正實現快速部署、快速應用。
一體化機柜
將數據中心基礎設施產品進行深度整合,包含UPS、配電、制冷、機柜、消防等多個子系統(tǒng),通過監(jiān)控系統(tǒng)對全部系統(tǒng)實現統(tǒng)籌管理。可靠的UPS電源配電系統(tǒng),配置一體化設計的柜式空調,無需安裝室外機,冷凝水在機柜內自動蒸發(fā),配有應急排水功能,可保證IT設備運行在穩(wěn)定合理的溫濕度環(huán)境中。同時一體化的封閉設計,比傳統(tǒng)機房節(jié)約40%以上的占地面積,可安裝于各種環(huán)境,無需專門投入機房建設與配套設施,現場安裝時間只需要1天,在大規(guī)模部署時,可極大縮短建設周期。同時可以通過增加機柜數量與空調模塊、UPS模塊,實現靈活冗余擴容。
以上三種模式均適用于類似此次防疫戰(zhàn)數據中心資源整合需求,也適用于處于快速成長期或者轉型期的企業(yè)建設數據中心或數據中心擴容需求。
(二)突發(fā)公共事件應急體系方面
完善應急體系
本次疫情后,數據中心行業(yè)將針對突發(fā)公共事件的應急處理體系建設給予高度的重視,并針對性地制定應急預案、應急處理的資源管理方案、開展專項應急演練。應急預案要充分結合突發(fā)公共事件的特點,切實貼近實際場景,如無人值守、遠程控制。從行業(yè)層面出發(fā),識別出數據中心自身業(yè)務以外的風險并加以充分分析與論證,有針對性的補充現有應急管理體系是特殊時期后必須要開展的重要工作。
無人值守下的管控能力的建設
做好無人值守技術準備,關注值守人員心理健康。數據中心行業(yè)必須針對性考慮在運維人員中短期的情境下,怎樣盡可能保障數據中心運維和管理工作正常進行,保障服務質量和業(yè)務安全穩(wěn)定。
供應鏈完整有效
在應對突發(fā)公共事件中,保持供應鏈的正常有序,是數據中心應急處置得到有效落實的硬保障。數據中心的合作方及廠商,在突發(fā)事件下,依然應具備良好的人員支持和資源保障能力。充分發(fā)揮第三方機構的優(yōu)勢,建立滿足供需雙方的平臺是后續(xù)值得思考的方向。
(三)數據中心體系各關鍵要素平衡發(fā)展成為趨勢
對于應對突發(fā)公共事件,考驗的不僅僅是人員、技術、管理單方面的處置能力,而是數據中心體系各關鍵要素(人員、流程、工具協(xié)作)綜合處置能力。
數據中心服務商逐漸由資源型向服務型轉變,數據中心服務商在傳統(tǒng)最開始的時候,可能只提供空間、電力、網絡這幾個基礎服務。在市場競爭下,他們的服務也逐漸擴展到包括管理、托管云服務等等。同時新建數據中心架構越來越靈活,因為客戶需求越來越多樣。同時數據中心管理越來越智能化,人工智能將實現無縫、整體性的監(jiān)控管理。冷卻散熱、電源、計算、工作負載、存儲和網絡將動態(tài)化,以實現高效和高可用性。
體系規(guī)范秉承“以客戶為中心,以服務為導向”的理念,有效的識別與管理IT服務管理的關鍵過程,保證在滿足客戶與業(yè)務需求的同時,依照公認的 “P-D-C-A”方法應用,充分發(fā)揮IT服務持續(xù)改進的能力,最終達到成本與收益的平衡。
組織建設根據業(yè)務發(fā)展的要求規(guī)劃組織架構演進路線,并根據業(yè)務發(fā)展,經營策略調整等對組織架構進行持續(xù)優(yōu)化和完善。充分評估業(yè)務性質不同對數據中心的安全性、可用性及靈活性提出的不同的要求。
管理工具。通過將基于云的分析應用于從數千個地點采集的傳感器數據,設施設備和IT也將在一定程度上得到自我修復,從而有助于企業(yè)數據中心得以運用其來指導和制定有針對性的預測性和預防性維護計劃。通過本次抗擊疫情,可以更加明確數據中心尤其是基礎設施部分智能化運維的重要性,從而促進數據中心智能化運維的快速布局。在現場工作人員不足的場景下,具備一個完整、精確、隨時隨地可登入、允許關鍵運行參數遠程修正的數據中心監(jiān)管控系統(tǒng),可以有效跟蹤監(jiān)控數據中心環(huán)境變化,快速識別故障、降低風險。另外,數據中心的智能化產品的運用(如人工智能、物聯網、智能巡檢機器人的應用),能有效降低對人員的依賴,有效應對突發(fā)事件。
從這次抗擊疫情下的數據中心運維管理工作看,未來數據中心運營應基于合作共贏,充分利用現有行業(yè)資源,建立體系、人員、知識為一體的共享資源平臺,以保障特殊場景下數據中心的安全運行,保證公共衛(wèi)生應急事件中社會各類應用的基礎支撐穩(wěn)定、可靠。【轉載請聯系協(xié)會秘書處】
作者簡介
王建民,中國計算機用戶協(xié)會數據中心分會專家委員會副主任,中國石油數據中心(昌平) 高級技術總監(jiān)。2014年1月起任中國石油信息化基礎設施高級技術專家,從業(yè)經驗30余年,主持中國石油吉林數據中心項目建設及運行維護管理工作,參與多項數據中心標準及著作的編制工作。
楊玉麗,北京理工大學計算機學院碩士研究生,具有11年的IT運維及數據中心運維領域質量管理、流程管理、評估及審核的專業(yè)經驗。參與了多項數據中心、云計算領域相關的標準及著作編寫工作。現任中國石油昌平數據中心運行管理項目經理,對IT運維服務管理及數據中心運維服務管理有較深入的研究和實踐。
于謀川,大連理工大學碩士研究生,信號與信息處理專業(yè)。現任中國石油數據中心(昌平)基礎設施運維專業(yè)工程師。具有6年數據中心運維管理相關工作經驗。主要負責數據中心機房搬遷,機房運維管理,暖通系統(tǒng)運維管理工作。熟悉數據中心基礎設施架構,主流IT管理框架及工具,對于數據中心運維管理、運行優(yōu)化、容量管理、改造提升等方面有深刻見解。
李培仁,西南交通大學信息管理學院網絡工程專業(yè)學士,現任中國石油數據中心(昌平)運行管理項目副經理,具有8年數據中心運維管理、綜合平臺開發(fā)和工具建設從業(yè)經驗,參與中國石油吉林數據中心項目建設和工具開發(fā)。熟悉數據中心運維管理制度、體系編寫、應用。對于數據中心綜合管理工具架構設計、需求提煉、開發(fā)測試等開發(fā)和應用有深入研究。



