IT 工程師經(jīng)常提到術(shù)語(yǔ)“MTTR”(平均修復時(shí)間)。這是一個(gè)關(guān)鍵指標,表明 IT 團隊可以多快地解決懸而未決的問(wèn)題。盡管我們今天擁有更復雜的監控工具,并且可能能夠比以前更早地收到警報,但仍然需要不斷努力尋找根本原因分析解決方案并確定適當的補救措施。這通常是 MTTR 花費的時(shí)間比預期長(cháng)得多的原因。
在這種情況下,根本原因分析可以通過(guò)結合過(guò)去的人類(lèi)經(jīng)驗和機器驅動(dòng)的數據處理能力來(lái)提供幫助,從而更快地提供可見(jiàn)性并建議最佳解決方案候選者。?在我們“馴服 IT 混亂”博客系列的第四篇文章中,我們將介紹使用機器學(xué)習 (ML) 和相關(guān)技術(shù)的根本原因分析解決方案。
情境化警報
當警報發(fā)生時(shí),可能有許多導致它的故障。更好地理解警報的第一步是將其上下文化。通常,可以應用四種情境化:
- 垂直堆疊
- 水平交通路徑
- 交易流程
- 時(shí)間序列事件關(guān)聯(lián)
1.垂直堆疊
現代IT 基礎架構由多個(gè)層組成:從物理網(wǎng)絡(luò )到主機、服務(wù)和應用程序。每一層都有不同的監控機制,比如網(wǎng)絡(luò )層的流量監控,服務(wù)層和應用層的服務(wù)檢查。將警報與每一層的監控指標相關(guān)聯(lián)是使警報上下文化的第一步,如下圖所示:
2. 橫向交通路徑
流量路徑是將警報上下文化的另一個(gè)維度。它嘗試將警報與監控指標以及流量連接起來(lái)。例如,網(wǎng)站問(wèn)題的根本原因可以追溯到其相關(guān)的網(wǎng)關(guān)、Web 服務(wù)器、功能服務(wù)或搜索服務(wù),如下圖所示:
3. 交易流程
事務(wù)是隨后執行的一系列動(dòng)作,共同完成一項任務(wù)。交易可以是由搜索、購物車(chē)操作和支付組成的高級電子商務(wù)流程?;蛘咚梢允堑图墧祿?SQL 執行,包括多個(gè)內存計算步驟和最終提交。建立警報與其事務(wù)流的關(guān)系將使 IT 操作員能夠將業(yè)務(wù)目的與其底層操作聯(lián)系起來(lái),并快速勾勒出警報的影響范圍,從而快速確定關(guān)鍵路徑。
4.時(shí)間序列事件關(guān)聯(lián)
所有 IT 事件都可以應用到時(shí)間序列分析中,可以識別事件之間的順序關(guān)系,并對相關(guān)事件進(jìn)行分組和排序。順序關(guān)系不一定表示因果關(guān)系,然而,頻繁的、重復的順序關(guān)系可以被視為一種模式,當與其他信息結合時(shí),可能會(huì )導致進(jìn)一步的發(fā)現。
過(guò)去事故的監督培訓
過(guò)去的經(jīng)驗是解決當今問(wèn)題的寶貴財富。過(guò)去的警報數據,以及所有上下文數據和解決方案信息,是機器學(xué)習的完美訓練集。它通常是一個(gè)有監督的學(xué)習過(guò)程,可以應用多種學(xué)習模型,例如回歸、決策樹(shù)或神經(jīng)網(wǎng)絡(luò )。通常,沒(méi)有適合所有場(chǎng)景的單一模型或一個(gè)問(wèn)題的完美解決方案。機器學(xué)習的美妙之處在于它可以結合多個(gè)模型的結果,并提供一系列按置信度分數排序的解決方案。人類(lèi)可以檢查機器學(xué)習模型建議的解決方案,進(jìn)一步研究或嘗試它們。
超越根本原因分析解決方案
借助與機器學(xué)習建議的每個(gè)解決方案相關(guān)的置信度分數,人類(lèi)操作員甚至可以建立自我修復機制。對于負面影響也很低的高度自信的解決方案,如果應用它們,人工操作員可以讓機器自動(dòng)執行它們并監控結果。當機器智能學(xué)習和建模越來(lái)越多的經(jīng)驗時(shí),需要的人工干預越來(lái)越少——即使是災難性事件也是如此。這可能是邁向完全自動(dòng)化的第一步,這是 IT 運營(yíng)的終極夢(mèng)想。