ITIL4之 IT服務連續性管理
服務連續性管理實踐的目的是確保災難發生時,服務的可用性和性能能夠保持在足夠的水平。本實踐提供了一個框架機制,利用產生有效[url=]響應[/url]的能力來構建組織的彈性,以保障關鍵利益相關者的利益,還有組織的聲譽、品牌和創造價值的活動。
定義:災難
一個突發的意外事態,會對組織造成巨大損壞或嚴重損失。要被歸類為災難,這一事態必須與組織預定義的特定業務影響準則相匹配。服務連續性管理實踐有助于確保服務提供者做好應對高影響事件的準備,這些事件會破壞組織的核心活動和/或信譽。確保服務的連續性變得越來越重要和困難。在數字化轉型的背景下,服務連續性管理實踐變得越來越重要,因為在各個行業,數字化服務的作用越來越大。對于在過去專注于非技術災難的組織而言,重大服務中斷可能產生災難性的影響。
云解決方案的廣泛使用,以及與合作伙伴和服務消費者的數字化服務的廣泛整合,正在產生更加難以控制的新的關鍵依賴關系。合作伙伴和服務消費者通常會投資于高可用性和高連續性解決方案上,但是組織之間缺乏整合和一致性會產生新的脆弱性,這一點需要被了解并解決。
服務連續性管理實踐與其他實踐(包括可用性管理,容量和性能管理,信息安全管理,風險管理,服務設計,關系管理,架構管理和供應商管理實踐)相結合,可以確保組織的服務具有彈性并為災難性事件做好準備。
風險的概念是服務連續性管理實踐的核心。該實踐通常可以減輕無法被完全避免的高影響、低概率風險(因為某些風險因素不在組織的控制之下,例如自然災害)。
簡單來說,此實踐與事件管理實踐非常相似,不同之處在于其潛在的損害要大得多,并且它可能威脅到服務提供者創造價值的能力。
服務連續性管理實踐與服務價值系統(SVS)中的可用性管理實踐密切相關,并且在某些情況下可以合二為一。它也與公司背景下的業務連續性管理實踐緊密相關,并可以納入其中。
IT服務連續性的術語
定義:服務連續性
在發生災難事件或中斷性事件后,服務提供商在可接受的預定義級別上繼續服務運行的能力。
在這個定義中,我們需要界定連續性管理的范疇是災難,連續性管理是針對災難性事件而制定的計劃和響應措施。非災難性事件的管理,一般不包括在IT服務連續性管理實踐中,如
●小故障。根據業務影響,應將故障視為輕微或重大故障。重要的是要考慮諸如受影響的維修行動、故障規模、故障時間等因素。
●戰略、政治、市場或行業事件
定義:服務連續性計劃
服務連續性計劃指導服務提供商在服務中斷后響應、恢復和恢復到正常水平.
服務連續性計劃通常包括:
●響應計劃:服務提供商最初如何應對破壞性事件,以防止損壞,例如在火災或網絡攻擊情況下。
●恢復計劃:服務提供者如何恢復服務以實現RTO和RPO。
●恢復正常的操作計劃:服務提供商在恢復后如何恢復正常操作。
指標:RTO和RPO
定義:RTO 恢復時間目標
在服務中斷后,業務功能的缺乏嚴重影響組織之前,可以經過的最長時間。這表示必須恢復產品或活動或必須恢復資源的最長商定時間。
定義:RPO 恢復點目標
為了使活動在恢復時能夠有效地運行,必須將活動使用的信息恢復到該點。
RTO 規定了業務可以中斷的時間。RPO規定了可接受數據丟失的時間段。通常,RTO和RPO都是作為連續性管理的衡量指標,寫入SLA中。
服務連續性管理的流程
服務連續性管理活動分為以下五個過程:
●服務連續性管理的治理
●業務影響分析
●制定和維護服務連續性計劃
●測試服務連續性計劃
●響應和恢復。
1. 服務連續性管理的治理
服務連續性治理主要包括三個活動,定義范圍、策略選擇和意識與演練計劃的開發。一般做連續性的企業,主營業務都非龐大,IT系統更是錯綜復雜,交互繁多。出于經濟效益的考慮,企業不可能保證所有的應用和基礎設施組件都有備份,所以首先根據BIA(業務需求分析),確定關鍵業務和組件。然后根據不同的級別,選擇不同的災備方式和演練計劃。
2. 業務影響分析 BIA
業務影響分析包括以下活動:
●VBF識別
●中斷后果分析
●VBF相互依賴性識別
●確定服務連續性要求
ITIL 4中對于這些活動并未給出具體的實施方法。后面我會專門寫一篇,如何開展BIA。BIA的難點在于技術實施層面,必須有系統架構師參與,進行風險評估也需要技術人員。
3. 制定和維護服務連續性計劃
這個過程包括的步驟是:
●服務連續性策略制定
●服務連續性計劃制定
●服務連續性計劃初步測試
服務連續性策略可以包括連續性的等級,對應的RTO和RPO的目標,可用性目標,演練的等級。如:
金融領域的云計算平臺容災能力等級要求
影響范圍 | 危害程度 | ||
較小影響 | 一般影響 | 嚴重影響 | |
內部輔助管理 | 1級 | 2級 | 3級 |
內部運營管理 | 2級 | 3級 | 4級 |
公民、法人和其他組織的金融權益 | 3級 | 4級 | 5級 |
國家金融穩定、金融秩序 | 4級 | 5級 | 6級 |
關鍵指標:
容災等級 | RTO | RPO | 可用性 |
3級 | <=24小時 | <=24小時 | |
4級 | <=4小時 | <=1小時 | |
5級 | <=30分鐘 | 約等于0 | |
6級 | <=2分鐘 | 0 |
演練等級在《保險業信息系統災難恢復管理指引(保監發[2008]20號)》規定為:桌面演練、模擬演練、實戰演練、部分演練和全面演練。
4. 測試連續性計劃
這個過程包括執行演練和連續性評審兩個活動。
5. 響應和恢復
響應包括對應供應商服務連續性計劃的調用。
若需要ITIL4 服務連續性管理實踐完整實踐資料,請點擊右上角注冊賬號后向客服索取!