您在垃圾填埋場(chǎng)工作的時(shí)間越長(cháng),氣味對您的警覺(jué)就越少。當沒(méi)有任何問(wèn)題時(shí),您的網(wǎng)絡(luò )監控系統儀表板以紅色和黃色點(diǎn)亮的時(shí)間越長(cháng),警報對您的意義就越小。配置您的網(wǎng)絡(luò )監視器警報閾值,使紅色真正意味著(zhù)“現在做點(diǎn)什么”。我們的一位高級服務(wù)工程師 (SE) 在安裝網(wǎng)絡(luò )監控系統后不久就拜訪(fǎng)了一位客戶(hù)??粗?zhù)客戶(hù)的儀表板,SE 看到了一些罕見(jiàn)而美妙的東西。
他對客戶(hù)說(shuō):“您主頁(yè)上的所有內容都是綠色的。這正常嗎?一切(即監控系統)工作正常嗎?”“哦耶。我在這附近經(jīng)營(yíng)著(zhù)一艘非常緊張的船,”客戶(hù)回答道?!拔抑缿摫O控什么以及何時(shí)監控?!罢\然,該客戶(hù)端幾乎沒(méi)有大型客戶(hù)端維護的網(wǎng)絡(luò )規模,在任何給定時(shí)間都不太可能有零警報。但是客戶(hù)的觀(guān)點(diǎn)仍然有效。正確配置的警報是必不可少的,配置不當的警報可能比沒(méi)有警報更糟糕。
這里有 5 種方法可以確保您的警報正在執行您支付的費用:
1. 清點(diǎn)您的設備(必要時(shí)獲得幫助),以確保您可以看到您需要它的地方 - 并且只在您需要的地方。
在解決警報閾值之前,請確定您是否甚至需要監控給定的設備或系統。正如我在上一篇關(guān)于為監控系統安裝準備網(wǎng)絡(luò )的文章中提到的,您可以使用“自動(dòng)發(fā)現”工具來(lái)清點(diǎn)系統和設備。我們有客戶(hù)告訴我們,自動(dòng)發(fā)現過(guò)程幫助他們識別了一些他們沒(méi)有意識到他們可以如此輕松地監控的關(guān)鍵設備?,F在,他們發(fā)現了解這些設備非常有用。
對于其他客戶(hù),最好手動(dòng)清點(diǎn)他們的網(wǎng)絡(luò ),通常是在我們 SE 的幫助下。這可以幫助您識別您可能不需要監控的設備。你知道,就像那個(gè)已經(jīng)“關(guān)鍵”了 250 天的來(lái)賓虛擬機,但實(shí)際上其中 249 天可能并不存在?請記住,如果您使用具有預設警報閾值的自動(dòng)發(fā)現功能,您可能需要立即調整閾值。對于您不立即調整的閾值,請在它們運行幾周左右后留出時(shí)間進(jìn)行審查。確保你有你認為你有的知名度。
2. 確定每個(gè)警報將直接通知誰(shuí),以及如何通知他們。
如果您有生成操作項通信的警報,請確保只有需要對警報采取行動(dòng)的人(可能連同備份和/或直接主管一起)接收電子郵件、文本等。與儀表板警報一樣,一個(gè)裝滿(mǎn)無(wú)關(guān)通知的收件箱只會(huì )訓練人們忽略所有警報,包括他們應該采取行動(dòng)的警報。
3. 考慮將警報從單個(gè)設備監控工具遷移到一個(gè)集成監控系統中。
作為 OmniCenter 的創(chuàng )建者,我們顯然相信全面的監控、警報和報告設備。然而,我并不是說(shuō)某些設備的專(zhuān)有監控工具或為基礎設施的特定元素構建的本土工具沒(méi)有用處。關(guān)鍵是不要讓這些不同的工具以大多數工作人員不完全理解并且不能始終正確響應的警報形式產(chǎn)生噪音。
不同工具的報警系統可能使用不同的協(xié)議來(lái)輪詢(xún)他們的設備。每個(gè)都可能有不同的 UI。這可能會(huì )迫使您在網(wǎng)絡(luò )管理操作中不必要地創(chuàng )建孤島。綜合監控系統促進(jìn)了更多跨職能、更靈活的工作人員。您可以避免服務(wù)瓶頸(以及隨之而來(lái)的不可避免的指責)。
使用 SNMP 輪詢(xún)每臺設備的管理系統使您能夠了解整個(gè)基礎架構,包括您無(wú)法通過(guò)代理管理的設備。例如,SNMP 可以向您顯示沒(méi)有操作系統的設備(如交換機端口或 UPS 電池)的利用率。無(wú)論您決定需要警報配置的設備,您都應該能夠使用單一、連貫的 UI 來(lái)概覽所有設備。
4. 配置警報閾值以發(fā)現重大異常,而不是可預測和/或瞬時(shí)峰值。
正如我在一篇關(guān)于發(fā)現隱藏在虛擬化網(wǎng)絡(luò )中的異常的帖子中所描述的,靜態(tài)閾值(例如服務(wù)器 CPU 或內存)可能會(huì )產(chǎn)生誤導性警報。一個(gè)典型的例子是 SQL 數據庫服務(wù)器。它可能每天四次達到 100% CPU,但您并不真的希望每次發(fā)生這種情況時(shí)都收到警報。您真正需要知道的是它何時(shí)表現異常。
也許在周五上午 10 點(diǎn),它通常以 80% 的速度運行,但本周五同時(shí)以 20% 的速度運行。這可能表明您的應用程序或用戶(hù)存在問(wèn)題 - 但不會(huì )觸發(fā)靜態(tài)警報。通過(guò)異常檢測,您將收到警報,以便您了解發(fā)生了什么。
或者你可能有一些用戶(hù)通常不會(huì )使用超過(guò) 20% 的端口帶寬,而現在他們正在使用 70% — 仍然可能不足以觸發(fā)靜態(tài)“高水位”閾值,但絕對應該這樣做調查。如果您的監控系統只是在尋找固定的閾值,您可能看不到全貌。這取決于設備的常規工作負載。
5. 盡可能自動(dòng)化為新設備預先設置閾值的過(guò)程。
一旦您清點(diǎn)了您的系統,將所有需要的設備映射到您的監控系統并自定義了閾值,您的警報管理工作就完成了。只是在開(kāi)玩笑。只要您的網(wǎng)絡(luò )不斷變化和增長(cháng),它就永遠不會(huì )完成,對嗎?但是你可以讓這項工作更容易向前推進(jìn)。
根據您已設置的參數,配置您的網(wǎng)絡(luò )監控系統以預設特定設備類(lèi)別的警報閾值。即使新設備通常不需要與設備類(lèi)別完全相同的警報參數,也可能會(huì )接近預設閾值。如果不立即重新配置設備的警報,您至少會(huì )獲得一些保護。而且您可能會(huì )發(fā)現,大多數情況下預設的閾值都是正確的。這是你自己經(jīng)營(yíng)一艘非常緊張的船的明顯跡象之一。