?Uptime Institute今日發(fā)布其2025年第七份年度停機分析(Annual Outage Analysis)主題報告。對于數(shù)據(jù)中心所有者和運營商而言,預(yù)防數(shù)據(jù)中心停機仍然是一項戰(zhàn)略重點?;A(chǔ)設(shè)施設(shè)備有所改進,但現(xiàn)代架構(gòu)的復(fù)雜性以及不斷演變的外部威脅帶來了新的風險,運營商必須積極應(yīng)對這些風險。
Uptime Intelligence研究連續(xù)第四年表明,總體停機頻率以及所報告的停機嚴重程度的總體水平持續(xù)下降。然而,網(wǎng)絡(luò)安全事件呈上升趨勢,并且往往會產(chǎn)生嚴重且持久的影響。
Uptime Intelligence創(chuàng)始成員兼執(zhí)行董事Andy Lawrence表示:“總體而言,停機情況有所減少。數(shù)據(jù)中心運營商面臨著越來越多超出他們控制范圍的外部風險,包括電網(wǎng)限制、極端天氣、網(wǎng)絡(luò)提供商故障以及第三方軟件問題。盡管風險環(huán)境更加不穩(wěn)定,但情況仍在改善?!?/p>
Uptime的年度停機分析在行業(yè)內(nèi)獨樹一幟,它綜合了多項調(diào)查、Uptime Institute成員及合作伙伴提供的信息,以及其公開報告的停機事件數(shù)據(jù)庫。
主要研究結(jié)果包括:
相對于數(shù)字基礎(chǔ)設(shè)施的快速增長,停機事件變得越來越不頻繁,嚴重程度也在降低。這一趨勢已持續(xù)數(shù)年,突顯了行業(yè)在風險管理和可靠性方面的進步。
電力仍然是導(dǎo)致重大停機事件的主要原因。2024年,由IT和網(wǎng)絡(luò)問題導(dǎo)致的停機事件有所增加,占重大停機事件總數(shù)的23%。這一趨勢反映了長期以來向托管服務(wù)提供商、云計算及其他第三方服務(wù)的轉(zhuǎn)變。雖然外包可能會降低一些企業(yè)的風險,但重大故障仍時有發(fā)生,有時會造成嚴重后果。這種增長可能是由于IT和網(wǎng)絡(luò)復(fù)雜性增加,導(dǎo)致變更管理問題和配置錯誤。
基于軟件的分布式彈性工具正在不斷擴展。這些系統(tǒng)提高了正常運行時間,但也可能引入新的風險和復(fù)雜性。將基于軟件的彈性策略與物理故障切換/冗余相結(jié)合,無疑有助于整體可用性的提升。然而,增加的復(fù)雜性帶來了自身的挑戰(zhàn),并且可能會模糊故障責任界限,使根本原因分析和停機分類變得更加復(fù)雜。
行業(yè)轉(zhuǎn)型的步伐正在加快。對AI的需求激增給現(xiàn)有基礎(chǔ)設(shè)施設(shè)計帶來了壓力,尤其是在電力和冷卻方面。與此同時,電網(wǎng)限制和全球貿(mào)易緊張局勢給供應(yīng)鏈和擴張計劃帶來了新的不確定性。這些壓力共同作用,最終可能會影響當前可靠性趨勢的穩(wěn)定性。
2025年,由未遵循程序?qū)е碌娜藶殄e誤相關(guān)停機事件的比例比2024年上升了10個百分點。與上一年相比,員工未遵循程序已成為導(dǎo)致停機的更主要原因,這表明通過培訓(xùn)和流程審查來減少此類事件存在重大機會。絕大多數(shù)與人為錯誤相關(guān)的停機事件都涉及忽視程序或程序不完善。在過去三年中,近40%的組織曾遭受過由人為錯誤導(dǎo)致的重大停機事件。在這些事件中,85%源于員工未遵循程序或流程和程序本身存在缺陷。這種上升的原因尚不清楚,但可能是行業(yè)快速增長以及許多地區(qū)由此導(dǎo)致的人員短缺的結(jié)果。雖然改進文檔記錄和流程仍然很重要,但更加注重員工培訓(xùn)和實時運營支持可能會更有效地降低風險。
在Uptime追蹤公開報告的停機事件的九年時間里,第三方IT和數(shù)據(jù)中心服務(wù)提供商(包括云計算和互聯(lián)網(wǎng)巨頭、電信公司以及托管公司)約占所報告停機事件的三分之二。
2024年,歸因于數(shù)字服務(wù)提供商的停機事件有所增加,而來自云計算/互聯(lián)網(wǎng)巨頭的停機事件則有所減少,這可能是由于超大規(guī)模企業(yè)在分布式彈性和區(qū)域故障切換方面的投資。自2020年以來,金融行業(yè)的停機頻率連續(xù)第三年低于長期平均水平。這種改善可能反映了在2021年之前發(fā)生的幾起重大且備受矚目的停機事件之后,更嚴格的監(jiān)管和監(jiān)督所產(chǎn)生的影響。