互聯(lián)網(wǎng)正在迅速發(fā)展,并到達世界的每一個(gè)角落。越來(lái)越多的設備被添加到網(wǎng)絡(luò )中以形成物聯(lián)網(wǎng) (IoT)。公司正在發(fā)展他們的技術(shù)以滿(mǎn)足用戶(hù)不斷增長(cháng)的需求。服務(wù)器、路由器和數據中心處理的數據比以往任何時(shí)候都多。但是,就像人類(lèi)一樣,技術(shù)也不是永恒的。它是易變的,并且可能在任何時(shí)候失敗。服務(wù)器是硬件和軟件資源的組合,可以 24/7 全天候服務(wù)于用戶(hù)的請求。公司的大部分業(yè)務(wù)運營(yíng)都依賴(lài)于他們的服務(wù)器。損壞或故障的服務(wù)器每天會(huì )給公司造成數千美元的損失。因此,其維護是組織運營(yíng)整體運作的支柱。
我們編制了服務(wù)器故障的常見(jiàn)原因列表。使用此信息,您可以制定維護服務(wù)器的最佳實(shí)踐。它還將幫助您提前減輕與服務(wù)器故障相關(guān)的大部分風(fēng)險。
服務(wù)器故障的常見(jiàn)原因
1、內存錯誤
每個(gè)服務(wù)器都有一個(gè)隨機存取存儲器,用于存儲和處理數據。但是內部和外部因素可能會(huì )破壞服務(wù)器的內存。機柜內的灰塵顆粒會(huì )引起電磁干擾。這可能會(huì )嚴重損壞內存,使其無(wú)法使用。您還需要確保內存正確安裝在其插槽中。有時(shí),軟件也會(huì )破壞內存。有時(shí),它會(huì )產(chǎn)生大量數據,服務(wù)器難以存儲。此外,在服務(wù)器上運行的虛擬機可能會(huì )因內存不足而餓死。這最終會(huì )導致服務(wù)器內存不足錯誤。
2、CPU問(wèn)題
典型的服務(wù)器具有多個(gè)處理器芯片。它需要處理大量請求并同時(shí)響應每個(gè)請求。隨著(zhù)網(wǎng)絡(luò )上用戶(hù)數量的增加,CPU 可能會(huì )因以下原因而面臨錯誤:
- 在占用大部分內存及其處理能力的服務(wù)器上運行的不必要的應用程序。
- 高峰期用戶(hù)需求激增導致服務(wù)器崩潰。
- 由于服務(wù)器負載過(guò)重,100% 的 CPU 使用率可能會(huì )使服務(wù)器過(guò)熱。這可能導致處理器的內部電路出現故障。
- 無(wú)響應的系統應用程序會(huì )增加響應時(shí)間。當前從服務(wù)器請求數據的人會(huì )遇到延遲。
3、功率和溫度浪涌
服務(wù)器的板載電源系統可能會(huì )導致服務(wù)器在沒(méi)有警告的情況下關(guān)閉。電源中斷的一個(gè)常見(jiàn)原因是電源單元發(fā)生故障。它會(huì )導致電源線(xiàn)燒毀并損壞精密設備。此外,故障的冷卻系統可能會(huì )使服務(wù)器過(guò)熱,從而導致故障。服務(wù)器冷卻系統可能會(huì )因以下原因而發(fā)生故障 -
- 服務(wù)器機房通風(fēng)不良
- 緩慢的板載冷卻風(fēng)扇
- 溫度傳感器故障
4、RAID 故障
每臺生產(chǎn)服務(wù)器都使用 RAID 技術(shù)將多個(gè)磁盤(pán)驅動(dòng)器組合成一個(gè)單元。大多數互聯(lián)網(wǎng)服務(wù)器由于未檢測到的 RAID 故障而崩潰。如果單個(gè)驅動(dòng)器發(fā)生故障,整個(gè) RAID 系統就會(huì )出現故障。因此,您必須經(jīng)常監控 RAID 狀態(tài)。以下是可能導致服務(wù)器上出現 RAID 錯誤的原因:
- RAID 控制器故障導致磁盤(pán)故障
- 缺少RAID 分區
- 電源浪涌
- 需要磁盤(pán)碎片整理的數據刪除或重新格式化
- 感染整個(gè)系統的病毒和惡意軟件
- 不注意重新配置RAID 卷
- RAID 重建錯誤或卷重建問(wèn)題
- 離線(xiàn)狀態(tài)下的多個(gè)磁盤(pán)故障導致 RAID 卷丟失
- 系統或應用程序升級后 RAID 磁盤(pán)訪(fǎng)問(wèn)丟失
5、病毒和惡意軟件
網(wǎng)絡(luò )安全對于任何組織來(lái)說(shuō)都是最重要的問(wèn)題。具有良好 IT 知識的人可能會(huì )破壞服務(wù)器的安全性。許多人只是為了娛樂(lè )而這樣做,而另一些人則為了錢(qián)而這樣做。惡意軟件可能會(huì )導致嚴重的停機時(shí)間和系統鎖定問(wèn)題。因此,安裝在服務(wù)器上的過(guò)時(shí)防病毒軟件是惡意軟件進(jìn)入服務(wù)器的主要原因。惡意程序最終會(huì )導致本文中列出的問(wèn)題。
6、適配器問(wèn)題
出現故障的以太網(wǎng)或 FCoE 適配器會(huì )導致服務(wù)器無(wú)法連接到網(wǎng)絡(luò )。用戶(hù)在發(fā)出請求時(shí)會(huì )遇到 404 server not found 錯誤。此外,您還需要更新虛擬輸入/輸出 (VIO) 接口驅動(dòng)程序。VIO 確保安裝在服務(wù)器上的虛擬機可以在沒(méi)有物理網(wǎng)絡(luò )接口卡的情況下進(jìn)行通信。需要對傳入和傳出流量進(jìn)行持續監控,以識別任何此類(lèi)網(wǎng)絡(luò )故障。
結論
服務(wù)器是任何業(yè)務(wù)中最寶貴和最關(guān)鍵的組件。毫不奇怪,在為客戶(hù)端提供 24/7 服務(wù)時(shí),服務(wù)器偶爾會(huì )出現故障。它已成為組織的支柱,失敗會(huì )破壞整個(gè)業(yè)務(wù)運作。因此,服務(wù)器需要定期監控和維護。企業(yè)應提前做好萬(wàn)一發(fā)生災難時(shí)的快速修復和恢復計劃。