原文:《?ITIL提升中國電信運維管理系統建設》

      運維管理是電信運營商主要的生產和管理活動之一。運維管理系統建設和運營的好壞直接影響到電信運營的整體成本、管理水平和服務水平。因此,近兩年來,各大電信運營商紛紛對現有的運維系統進行改造。

      中國在電信領域的增長速度超過了其GDP增長的速度。正是電信快速的增長,推動了運維系統的發展。如何更有效地利用現有的資源,提高運營維護的工作效率,提高整體服務質量是目前各大運營商面臨的普遍問題。毫無疑問,中國電信在運營維護方面,也面臨相同的問題。建設新一代中國電信運維管理系統,成為解決目前運維管理問題的唯一方案。

       根據我們長期在電信領域的實踐,下面的幾點經驗,值得我們在中國電信運維系統的建設中更加關注。

 一、采用ITIL作為運維系統的方法論

      IT基礎架構庫(ITIL-ITInfrastructureLibrary),被譽為IT服務管理的圣經,其中包含了總結國際大公司在IT服務管理中的經驗并得到證明的IT服務計劃和運營的最佳實踐框架。

      ITIL已經為《財富》500強的一些企業所采用,并取得了預期的效果。加特納(Gartner)和國際數據集團(IDC)等世界權威研究機構的調查研究表明,企業通過在IT部門實施最佳服務管理實踐,將因重復呼叫、不當的變更等引起的延誤時間減少了79%,每年每個終端用戶平均節約800美元的成本,同時每項新服務推出的時間也縮短一半。

      要成為國際一流的企業,就要吸取國際一流企業的成功管理經驗,借鑒其管理手段。因此,中國電信在運維管理系統的建設,也應確立ITIL在系統建設過程中的方法論地位,吸取ITIL中的成功經驗。

      作為眾多國際大型企業成功實踐的積累,ITIL使我們找到了解決運維流程規范的方式和方法。可是,如何更好地運用ITIL這一經典的方法論呢?我們認為應該注意兩點:

     1)ITIL是從實踐中得來的精髓,不是僵化的教條,應該結合實際情況去運用ITIL,建立更加適合中國電信的流程規范,而不是照抄照搬。

     2)由于ITIL理論博大精深,不可能在短期內在企業中全面實施。應該根據實際情況,選取實施重點,逐步實施,逐步完善。

      在中國電信運維系統建設中,應該深入理解ITIL的核心理念,結合電信運維的現狀,解決核心和關鍵問題,逐步實現對運維的科學管理。

二、ITIL理論與實際情況相結合,注重工作流程細節的設計和優化,是系統建設的關鍵

      理順工作流程、提高服務效率是新運維系統建設的主要內容之一。

      在工作流程的制定過程中,容易陷入以下兩個極端。

1.盲目照搬流程。作為方法論的ITIL,本身含有大量的成功實踐框架。但是,正如前面所說的,ITIL是從實踐中得來的精髓,不是僵化的教條,盲目照搬,只能使得工作流程不切合實際,并流于形式,對系統的貫徹和執行產生不好的影響。

2.完全遵照現有流程,實現其電子化。雖然這樣更符合目前的工作習慣,可能容易為運維人員所接受,但是,仍然解決不了目前運維所存在的一些問題。例如,我們在項目實施中曾遇到“工單在部門之間的重派”的問題。在當前手工作業的工作模式中,各單位將不屬于本單位處理范圍的工單,或部門需要其他部門配合的工單,均提交給故障處理的負責人,由該負責人向其他單位進行轉派和重派。這種處理方式,主要便于手工作業條件下負責人及時了解項目處理狀況。在建立運維系統后,負責人可以通過運維系統隨時了解到故障的處理狀況,每次重派和轉派之前,對負責人的回復變成了一種無效的工作,大大降低了事件的處理效率。如果僅僅將目前的手工作業電子化,那么故障處理的效率仍然沒有得到有效的提高。

      因此,將ITIL理論與實際情況相結合,注重工作流程細節的設計和優化,是系統建設的關鍵。

三、樹立主動服務觀念

      在現行的運維工作中,我們經常遇到這樣的情況:一方面是運維部門疲于應付各種突發事件,加班加點處理各種重復事件,工作繁重,身心疲憊;一方面是客戶代表不斷抱怨和投訴“技術人員服務水平太低”。二者不可調和的矛盾,是新運維系統要解決的重要問題。

      傳統的運維方式給人的印象是:故障發生前,維護人員似乎無所事事;故障發生后,則是手忙腳亂。這就是被動服務給人們留下的印象,運維人員是在被動地等待故障的發生。在新的運維系統中,我們必須改變原有的運維方式,變被動服務為主動服務。

       在主動服務模式下,運維人員主動地監控系統的變化,對日常工作及故障處理完成后主動進行問題分析,對系統的變更風險進行評估。在新系統中,可以通過種種技術措施,使得運維工作從被動服務轉移到主動服務,如:增加變更管理流程以防范變更風險。

       在日常運維工作中,變更工作是在所難免的。例如,新的系統安全漏洞被公布,為了保證系統安全,就需要安全系統補丁,而這種變更給系統帶來的風險則是難以估計的。例如在安裝補丁后,有時會產生大量莫名其妙的問題。這么一個簡單的例子已經可以說明,如果沒有很好的風險防范手段,系統變更將給我們的日常運維工作帶來大量的問題,后果往往是難以想象的。在新系統中,我們可增加變更管理流程。在變更管理流程中,變更方案需提交變更經理,由變更經理組織由專家組成的變更顧問委員會(CAB)對變更進行風險評估,在評估通過后才能夠進入變更的實施過程。變更管理是防范變更風險的最好辦法。

       當然,主動服務是一種理念,在這種理念下,我們可以定義更多的流程,如問題管理流程,對系統中存在的隱患問題進行挖掘,防患于未然。總之,我們應該樹立這樣一個理念,在各流程的定義中進行運用,主動地提早發現系統存在的風險和隱患,減少突發事件的發生。

四、從平臺到業務的全面管理

      網絡管理是運維系統的組成部分。對系統的監控也是運維的主要業務之一。以往網管系統實現了對平臺的監控,可是在實際運維工作中,平臺往往只有少數的幾個系統管理員負責,大多數業務人員更多地是面對業務系統。對于業務的監控和管理,是業務人員更加關心的問題。因此,在網管系統中,應加入業務監控的內容。

       需要注意的是,業務是建立在平臺的基礎之上的,而不是孤立存在的。因此,監控中,應強調業務監控與平臺監控密不可分的聯系,從業務的角度出發,建立平臺與業務的關聯關系。在故障發生時,應能夠即時描述對業務的影響程度,能夠描述故障的影響范圍。

       例如:采集源的某臺交換機產生異常,除了可以看到交換機告警外,我們還應該能夠在業務拓撲圖中直觀看到,采集系統受到影響,同時采集、預處理、分揀等相關業務也不同程度受到影響。其影響程度,能夠通過不同的顏色直觀地展示出來。

       只有這樣才能夠更加直觀而全面地反映系統的運行狀態,反映業務的運行情況。能夠幫助運維人員在故障發生時,快速修復關鍵部件,減少故障帶來的損失。

五、建立科學的激勵與監督機制

      多年來,系統的使用和推廣問題成為系統能否得到良好運用的一個重要問題。

      假設:我們制定了變更管理流程,但是,變更管理沒有被很好地執行,而只是流于形式,則風險的防范也只能是停留在理論上的空談。

       在運維系統建設過程中,建立了一整套科學的考核制度,以激勵運維人員更有效地提高服務質量和服務水平,是至關重要的。

       對運維人員的考核,并不能就管理論管理,應該從客戶服務的角度出發,以客戶滿意為前提,進行考核。例如,根據每個部門的服務水平,制定了服務時限。假設,某個用戶投訴,需要多個部門協同進行處理。在處理過程中,各部門互相推托,雖然工單在各部門的停留時間沒有超過部門承諾的時限,而整體處理時間已經超過了運營商對該用戶承諾的處理時間。為了杜絕這種現象的出現,我們應該從用戶的角度出發,進行各部門處理時間的分段計算。計算結果將反映在每月故障處理情況的統計報告中,而這些報告直接與各部門、各單位的績效考核掛鉤。

       通過這樣的考核機制,形成對員工日常工作的科學評價,既調動了員工積極性,又提高了工作效率和服務質量。