IT 基礎架構處于不斷變化的狀態(tài)。從集中式 大型機 系統到分布式 無(wú)服務(wù)器多云環(huán)境,這些變化發(fā)生得相對較快。沒(méi)有什么能阻止它。預測到2023年,超過(guò) 90% 的 IT 組織將讓大部分員工遠程工作。這主要是由于公司轉向使用更多的云服務(wù)。
IT 運營(yíng)團隊必須設法通過(guò)實(shí)施有效的 IT 基礎架構監控來(lái)跟上進(jìn)度。由于有些人不得不用更少的資源做更多的事情,因此通過(guò)使用正確的工具和最佳實(shí)踐來(lái)充分利用監控非常重要。繼續閱讀以了解您可以實(shí)施的一些最佳實(shí)踐,以及可以使用它們來(lái)更好地監控您的基礎架構的情況。
了解 IT 基礎架構監控
基礎架構監控 是從您的所有 IT 資源中收集和分析數據的過(guò)程。由于多年來(lái) IT 基礎架構發(fā)生了許多變化,復雜性急劇增加。
最佳實(shí)踐注意事項
為了幫助您處理所有這些復雜性,這里有十個(gè)最佳實(shí)踐,可以將監控數據轉化為有用的信息并更快地進(jìn)行故障排除。
1. 創(chuàng )建一個(gè)清單
很高興知道您的基礎設施正在被監控。但是當出現問(wèn)題時(shí),您需要迅速采取行動(dòng)來(lái)解決它們。因此,當出現問(wèn)題時(shí),請務(wù)必制定計劃。
發(fā)生鏈路故障,響應時(shí)間突然增加,系統停機。當您的監控工具顯示DNS 已關(guān)閉時(shí),您會(huì )采取什么下一步措施?您需要制定計劃,以便在問(wèn)題出現之前采取措施解決此 問(wèn)題 。有一個(gè)步驟清單,包括誰(shuí)需要知道這個(gè)特定問(wèn)題正在處理。
2. 避免警覺(jué)疲勞
借助現代 IT 基礎架構中收集的所有數據,監控變得非常嘈雜。您可能會(huì )被關(guān)于可能的基礎設施問(wèn)題的所有警報淹沒(méi)。因此,請確保降低收到誤報警報或完全被警報淹沒(méi)的可能性。一種方法是確保您的 IT 監控工具具有智能警報 或實(shí)施 AIOps功能集,以防止您收到無(wú)關(guān)緊要或可以快速解決的事情的警報。
但是每個(gè)組織在某些方面都是不同的。因此,您可能希望為基礎設施監控設置一些自定義警報閾值。如果是這樣,另一種減少警報疲勞的方法是確保僅配置特定且可操作的警報。關(guān)注可能導致用戶(hù)投訴的警報。這有助于確保您收到對用戶(hù)最重要的潛在問(wèn)題的通知。
3.使用自動(dòng)化
過(guò)去,當您的基礎架構稍微簡(jiǎn)單一點(diǎn)時(shí),您可以更輕松地解決基礎架構問(wèn)題。但隨著(zhù)當今基礎架構的規模和復雜性——跨越多個(gè)私有云和公共云——那些日子已經(jīng)一去不復返了。那時(shí)并不簡(jiǎn)單,但肯定比現在簡(jiǎn)單。
確保您的監控工具包含 自動(dòng)化 功能,有助于減少管理和監控 IT 基礎架構所涉及的一些體力勞動(dòng)。它可能是一個(gè)包含數千個(gè)服務(wù)器實(shí)例、路由器、交換機、防火墻等的基礎架構。如果新設備上線(xiàn),您希望自動(dòng)收集其數據。如果服務(wù)器實(shí)例的磁盤(pán)空間不足,您的工具可以自動(dòng)將存儲空間增加到指定數量。因此,不要因為監控工具可以為您解決的問(wèn)題而陷入困境并降低您的工作效率。使用自動(dòng)化始終擺脫消防模式。
4. 了解支持
每個(gè)監控工具提供商通常都包括其支持團隊的幫助,以幫助解決您的基礎架構或其產(chǎn)品的問(wèn)題。完善的 IT 基礎架構監控工具可以減少聯(lián)系支持團隊的需要。該產(chǎn)品具有易于理解的 用戶(hù)界面,可用于查找和修復基礎架構問(wèn)題?;蛘咚鼤?huì )自動(dòng)為您解決這些問(wèn)題,幾乎不需要您參與。
有了這些功能,您可能認為您不需要支持。但是總有一天您需要或應該尋求幫助。了解您的供應商的支持團隊。解決問(wèn)題通常是一項團隊運動(dòng),當您遇到問(wèn)題時(shí),您的支持團隊可以成為寶貴的資源。如果他們在您需要幫助時(shí)已經(jīng)知道您是誰(shuí),那么您更有可能更快地獲得良好的結果。
5.監控監視器
現在是晚上 10 點(diǎn),您知道您的監控是否正常工作嗎?
您需要確保您的監控解決方案正在發(fā)揮作用。如果您沒(méi)有收到任何警報,是因為基礎設施全是綠色的,還是因為您的監控不起作用?您希望信任,但始終驗證您的基礎設施監控是否按預期工作。沒(méi)有人愿意坐在那里觀(guān)看 帶有所有綠色圖表的儀表板監視器 ,但您應該不時(shí)這樣做,以確保這些綠色圖表準確且符合預期。您需要做的最后一件事是讓用戶(hù)提醒您問(wèn)題而不是您的監控解決方案。
6. 文件決議
始終記錄對基礎架構所做的任何更改。這個(gè)是不言而喻的,但有時(shí)隨著(zhù)變化的持續和快速的步伐,我們可以忘記這個(gè),因為文檔往往是一種痛苦。您只想解決問(wèn)題并繼續處理您遇到的下一個(gè)問(wèn)題。但一定要為此花一些時(shí)間。
首先,記錄您如何解決特定的基礎設施問(wèn)題可以在以后幫助您。它類(lèi)似于上面的清單實(shí)踐。您無(wú)需從頭開(kāi)始解決相同的問(wèn)題,因為它已記錄在案。其次,它可以幫助團隊成員遵循您采取的確切步驟,這可以幫助減少MTTR 并避免 違反 SLA。
7. 到處部署
監控您的基礎架構的目的是讓您能夠獲得所需的 可見(jiàn)性 來(lái)快速解決或預防問(wèn)題。最好的方法之一是將監控部署在任何地方或盡可能多的地方。
筒倉是能見(jiàn)度殺手。如果您只查看其中的一部分,那么您的監控對整個(gè)基礎架構并不是很有用。無(wú)論孤島是由于安全限制還是新合并的公司,都要盡一切努力監控您的所有基礎設施,并在您可以獲得它們的任何地方部署您的監控功能。
8. 執行 DR 測試
您應該 為您的基礎架構制定災難恢復 (DR) 測試計劃。這是業(yè)務(wù)連續性的賭注。您還應該將您的監控作為該計劃的一部分。
確保至少每年執行一次 DR 測試,了解當您的基礎架構發(fā)生故障時(shí)會(huì )發(fā)生什么。當您的主路由器或該路由器上的接口出現故障時(shí),您的監控會(huì )發(fā)生什么?您是否收到有關(guān)該故障的適當警報?當流量通過(guò)您的輔助路徑重新路由時(shí),您是否注意到儀表板中的變化?進(jìn)行 DR 測試可以讓您放心,如果確實(shí)發(fā)生了故障,您的監控也不會(huì )隨之失敗。
9. 實(shí)施冗余監控
如果您遵循之前的最佳實(shí)踐(至少每年進(jìn)行一次 DR 測試),您可能會(huì )遇到下一個(gè)最佳實(shí)踐可以避免的問(wèn)題。還能夠從外部監控您的基礎架構以實(shí)現冗余。
我們都希望我們的基礎設施不會(huì )失敗。但我們知道確實(shí)如此。無(wú)論您是在本地還是在云端,事情都會(huì )導致您的基礎設施徹底失敗或無(wú)法按預期運行。我們人類(lèi)很容易出錯。大多數基礎設施問(wèn)題是由于人為錯誤造成的。發(fā)生這種情況時(shí),如果您的監控工具僅部署在該環(huán)境中,那就太糟糕了。
因此,請確保您能夠從另一個(gè)環(huán)境監控您的基礎架構,以防您的主要環(huán)境不可用。
10. 接受培訓
一年前擁有的 IT 技能很快就會(huì )過(guò)時(shí)。您需要保持最新?tīng)顟B(tài)。你應該為你的監控做同樣的事情。隨著(zhù)您的基礎架構發(fā)生變化,您可能正在處理您的組織正在實(shí)施的新技術(shù),例如遷移到無(wú)服務(wù)器 功能。您可能需要一些培訓來(lái)了解如何最好地監控無(wú)服務(wù)器環(huán)境。接受供應商培訓,以確保您獲得他們推薦的方法。
此外,接受供應商 培訓可能會(huì )發(fā)現您未充分利用當前監控功能的方式。正如他們所說(shuō),知道是成功的一半。通過(guò)適當的培訓和工具,您可以更有效地完成另一半。
要記住的要點(diǎn)
如您所見(jiàn),基礎設施是一個(gè)多年來(lái)發(fā)生了很大變化的環(huán)境。IT 基礎架構也可以快速變化并大大增加監控的復雜性。要記住的關(guān)鍵點(diǎn)是,要充分利用 IT 基礎架構監控,您首先必須擁有正確的工具。將上述最佳實(shí)踐與正確的工具結合使用可以使您的事情變得更簡(jiǎn)單。