硬件、軟件和設(shè)施問題可能導(dǎo)致服務(wù)器故障。使用正確的協(xié)議和預(yù)防性維護,組織可以減少故障數(shù)量并排除故障。
服務(wù)器故障是一個會影響所有組織類型和規(guī)模的常見問題,服務(wù)器停機可能包括數(shù)天,而系統(tǒng)無法訪問關(guān)鍵業(yè)務(wù)數(shù)據(jù)。這可能導(dǎo)致運營問題、服務(wù)中斷和維修成本。
故障的潛在原因可能源自服務(wù)器硬件、軟件或數(shù)據(jù)中心設(shè)施。如果組織了解可能導(dǎo)致服務(wù)器故障的原因,則可以在問題發(fā)展之前避免出現(xiàn)問題并完全避免停機,但是,如果確實發(fā)生服務(wù)器故障,則最好制定應(yīng)急計劃。
2、什么會導(dǎo)致服務(wù)器發(fā)生故障?
如果收到警報或發(fā)現(xiàn)有故障,解決服務(wù)器故障的第一步是確定服務(wù)器發(fā)生故障的方式和原因;組織操作的速度可能是停機時間和分鐘和天之間的差別服務(wù)器故障的常見原因包括:
?過熱。如果服務(wù)器的溫度過高,則可能導(dǎo)致性能下降或完全故障。
?硬件問題。有時,硬件組件會損壞。這可能是由于實際組件的故障,例如電池故障或磁盤故障,冷卻系統(tǒng)故障或設(shè)備的使用壽命。
?軟件問題。過時的操作系統(tǒng)可能會在高流量的操作下崩潰,未經(jīng)審查的補丁程序可能會導(dǎo)致錯誤或數(shù)據(jù)損壞。軟件升級和更新也可能失敗并導(dǎo)致新問題。
?系統(tǒng)過載。高峰流量時段和完整的服務(wù)器日志可能導(dǎo)致系統(tǒng)過載和故障。
?網(wǎng)絡(luò)攻擊。缺乏網(wǎng)絡(luò)安全性或過時的不受支持的操作系統(tǒng)可能會使服務(wù)器容易受到網(wǎng)絡(luò)攻擊的攻擊,這些攻擊可能會使服務(wù)器癱瘓或崩潰。
?自然災(zāi)害。地震、火災(zāi)、洪水和雷暴雨可能對網(wǎng)絡(luò)系統(tǒng)造成嚴(yán)重破壞,并導(dǎo)致服務(wù)中斷。
如何防止常見服務(wù)器故障
持續(xù)不斷的重新引導(dǎo)和突然的緩慢指示服務(wù)器有故障。組織越能清楚地看到這些跡象,就可以更快地采取行動。服務(wù)器監(jiān)視軟件可以幫助組織保持服務(wù)器狀態(tài),并密切監(jiān)視關(guān)鍵系統(tǒng),并獲得任何潛在問題的警報。
除了監(jiān)視工具集外,還可以執(zhí)行預(yù)防性維護步驟,以確保服務(wù)器正常運行和健康。
1.確保最佳環(huán)境溫度。服務(wù)器需要適當(dāng)?shù)耐L(fēng)和溫度控制,以免過熱。檢查內(nèi)部和外部表面上是否積有灰塵,并根據(jù)需要調(diào)整溫度設(shè)置。
2.進行日常維護。硬件問題往往是最難預(yù)測和預(yù)防的,因為它們可能是隨機發(fā)生的。請注意每臺服務(wù)器的壽命,執(zhí)行例行磁盤檢查并定期更新/升級系統(tǒng)。時間到了,需要完全更換陳舊的零件或機器。預(yù)測分析還可以幫助確定零件何時可能發(fā)生故障。
3.定期安裝更新。定期安裝軟件,操作系統(tǒng)更新和補丁。這樣可以保持性能,并保護服務(wù)器免受容易利用的軟件漏洞的侵害。
4.維護嚴(yán)格的訪問控制和詳細(xì)的事件日志。人為錯誤幾乎是不可能消除的。自動化可以最大程度地減少人為錯誤,但是仍然需要人為干預(yù)。為了降低風(fēng)險,請嚴(yán)格記錄誰可以訪問服務(wù)器機房和管理軟件。組織還應(yīng)該保留詳細(xì)的事件日志并定期對其進行檢查。
5.監(jiān)視性能趨勢。通過持續(xù)的性能監(jiān)視檢查,組織可以更好地預(yù)測高峰期所需的資源并確定性能低下,這可能表示即將發(fā)生故障。這些趨勢還可能揭示潛在的硬件和軟件問題或需要額外散熱的服務(wù)器機房區(qū)域。確保維護日志文件,清空回收站,刪除臨時文件夾中的文件,以及對硬盤驅(qū)動器任務(wù)進行碎片整理,以保持性能水平并避免系統(tǒng)過載。
6.制定服務(wù)器應(yīng)急計劃。冗余是防止服務(wù)器故障導(dǎo)致停機的重要組成部分。服務(wù)器應(yīng)急計劃應(yīng)建立可用的輔助硬件,例如多個電源、冗余內(nèi)存和備份服務(wù)器。
7.設(shè)計災(zāi)難和數(shù)據(jù)恢復(fù)計劃。如果發(fā)生自然災(zāi)害或安全漏洞,災(zāi)難恢復(fù)計劃和數(shù)據(jù)恢復(fù)計劃將使組織免于長時間的停機和災(zāi)難性的數(shù)據(jù)丟失。對于最壞的情況,制定備份計劃至關(guān)重要。
如何解決服務(wù)器故障并從中恢復(fù)
即使服務(wù)器進行了預(yù)防性維護,即使服務(wù)器出現(xiàn)故障,也可以采取一些步驟有效地進行恢復(fù)。除了重新啟動之外,還可以使用可視提示和診斷軟件來縮小可能原因的范圍。
一旦確定了根本原因,就可以切換到備份服務(wù)器,并采取必要的步驟修復(fù)電腦故障。