對于任何 IT 團隊來(lái)說(shuō),事件解決后的那一刻可能是最放松的。當您的系統最終正常運行時(shí),它會(huì )讓整個(gè)組織放心,但最艱巨的任務(wù)尚未到來(lái):根本原因分析 (RCA)。類(lèi)似于足球隊觀(guān)看以前的比賽以查明改進(jìn)領(lǐng)域,根本原因分析通過(guò)數據并找出最初導致事件的原因。
分析問(wèn)題的根本原因對組織來(lái)說(shuō)是一項獨特的挑戰??赡苡性S多因素使這個(gè)過(guò)程變得更加困難,從太多的警報到缺乏文檔。也許最有害的是沒(méi)有一個(gè)固定的程序。許多組織的事件計劃都缺少這一關(guān)鍵步驟。任何好的事件計劃都包括一個(gè)用于根本原因分析的過(guò)程,而不僅僅是一個(gè)要求。
請注意,在開(kāi)始根本原因分析過(guò)程之前,在事件解決期間可以做一些事情。這些任務(wù)使根本原因分析更容易;例如分配和定義角色、建立最佳實(shí)踐以及利用可用工具。雖然,每個(gè)企業(yè)都會(huì )根據其功能和規模的不同而有不同的需求。通過(guò)明確定義每個(gè)角色的角色、功能和范圍來(lái)避免重大事件。以下是每個(gè)組織應具備的幾個(gè)關(guān)鍵角色:
組織中有效根本原因分析的關(guān)鍵角色
事件線(xiàn)索
事件負責人將充當隊長(cháng),因為每個(gè)事件應該只有一個(gè)事件負責人。擁有強大的指揮技能和事件管理經(jīng)驗至關(guān)重要。他們還應該能夠理解問(wèn)題的診斷和解決方法。他們的一般知識應該從系統監控和診斷工具擴展到應用程序和基礎設施組件,以及可用的工程工具。 他們會(huì )將資源引導到最需要的地方,并根據需要推動(dòng)所有問(wèn)題解決行動(dòng)。由于這是有效負責的角色,他們將負責收集最終根本原因分析所需的數據。
服務(wù)主管
服務(wù)主管將幫助指導恢復工作,并根據他們對業(yè)務(wù)重要性的了解確定優(yōu)先級。他們應該是經(jīng)驗豐富的工程師或經(jīng)理,了解受影響服務(wù)的系統方面和交付要求。他們還應該熟悉并能夠指導服務(wù)恢復例程和程序。 服務(wù)負責人會(huì )知道必須考慮和解決的潛在下游影響。 此外,他們必須知道必須與哪些業(yè)務(wù)部門(mén)和聯(lián)系人合作,以最大程度地減少事故處理期間的影響。
技術(shù)主管
技術(shù)主管是專(zhuān)家或主題專(zhuān)家。這通常是對生產(chǎn)環(huán)境有充分了解的高級高級工程師。他們的工作是在他們的組件領(lǐng)域(例如存儲、網(wǎng)絡(luò )、DBMS 等)診斷并領(lǐng)導解決問(wèn)題的工作。整個(gè)組織的技術(shù)主管必須相互協(xié)調和溝通,以解決可能存在于組件區域之間或之外的問(wèn)題。
根本原因分析的最佳實(shí)踐
現在已經(jīng)定義了所有角色,重要的是概述團隊在事件解決過(guò)程中應遵循的一些最佳實(shí)踐,以使根本原因分析 (RCA) 更容易。
- 如果根本原因無(wú)法追溯,這是最常見(jiàn)的原因之一。如果您有多個(gè)團隊同時(shí)進(jìn)行更改,則很難評估哪個(gè)團隊解決了問(wèn)題。事件負責人必須仔細跟蹤團隊修復系統的內容、時(shí)間和順序。
- 在恢復過(guò)程中,首要也是唯一的優(yōu)先事項應該是解決事件并記錄可能的根本原因。大多數根本原因分析 (RCA) 工作都是在服務(wù)恢復后很久才進(jìn)行的,并且有了適當的文檔,它可以使過(guò)程變得更加容易。
- 系統文檔的一部分應該是配置信息。能夠查看是否有可能導致錯誤的更改非常重要。以及監視哪些更改解決了問(wèn)題。這對于防止未來(lái)可能發(fā)生的事件很重要。解決問(wèn)題的最快方法是恢復到上次已知的穩定配置。您可以使用配置管理工具來(lái)檢測計劃外的更改并評估更改的內容和時(shí)間。正向設計解決方案可能很誘人,但它不應該是您唯一的選擇,因為巨大的變化可能會(huì )導致無(wú)法預料的問(wèn)題。
- 建立明確的指揮線(xiàn)并確保執行。業(yè)務(wù)方最好不要參與技術(shù)電話(huà)。技術(shù)數據可能是壓倒性的,并可能導致誤解。
- 在合理和可能的情況下并行工作。這應該包括產(chǎn)生并行活動(dòng)以工作多個(gè)合理的解決方案或備份。但是,重要的是要記住在實(shí)際執行時(shí)“一次更改”的做法。
管理警報
警報過(guò)多會(huì )使根本原因分析變得更加困難。有一些方法可以減少可能掩蓋事件根本原因的警報噪音量。一般的經(jīng)驗法則是確?;顒?dòng)警報僅針對可操作的項目。
- 如果通知沒(méi)有使您立即采取行動(dòng),則不應向您發(fā)出警報。例如,關(guān)于 CPU 使用率或內存空間的警報。如果你一直忽視警報,很可能有一天一個(gè)重要的警報會(huì )從裂縫中溜走。更有幫助的是接收每日報告,為您提供一般系統指標,以便您知道如何處理以防止事件發(fā)生。
- 自動(dòng)化報告使日常流程變得更容易,因此不會(huì )遺漏 任何事情,也不會(huì )因為不緊急的事情而引發(fā)警報。
利用操作系統
確保您以最佳方式使用您的工具是加快事件解決和根本原因分析的關(guān)鍵。
- 與通知管理器集成可以簡(jiǎn)化待命安排,并提供一種不依賴(lài)于內部郵件基礎設施的警報分發(fā)方式。
- 如果您正在使用 ServiceNow 或 RemedyForce 等票務(wù)或 ITSM 系統,則應確保您的計劃包括將這些系統與您的監控和警報系統以及事件管理流程集成。
結論
根本原因分析對于更快地解決未來(lái)事件并防止它們再次發(fā)生非常重要。通過(guò)在您的解決計劃中實(shí)施上述內容,它將使組織更加高效和優(yōu)化。通過(guò)其自動(dòng)報告和集成平臺為您提供了輕松實(shí)現這一目標的關(guān)鍵。