IT運維?IT運營?
都是 IT Operations,有什么區別?
IT運維管理?IT運營管理?
都是 ITSOM,有什么區別?
一字之差,只是翻譯不同,還是另有玄機?
IT運維是“活著”,IT運營是“活得好”;
IT運維更多是被動式“維持”,IT運營更多是主動式“經營”;
IT運維更多是面向基礎設施面向軟硬件,IT運營更多是面向業務面向服務面向人;
IT運維的關鍵詞是“穩定”、“安全”、“可靠”;IT運營的關鍵詞是“體驗”、“效率”、“效益”;
IT運維管理工具更多是關注故障防范和修復的“監管控”,IT運營管理工具開始更多應用性能、用戶感知、快速交付、數據分析和可視化……
企業IT正站在這樣一個拐點上,要么從運維走向運營,要么從運維走向被代維。
IT運維和 IT運營都非常重要,運維是運營的基礎,任何一個組織,首先是要活著,之后才要追求活得好,是 IT Operations的不同發展階段,今天的 IT運維部門的工作內容其實包括本文所說的 IT運營。
大多數ITOM領域的從業者,一直以來都約定俗成地把ITOM(IT Operation Management)翻譯成IT運維管理,相應的也把IT Operations叫做IT運維。近兩年來,開始有越來越多的人使用“IT運營管理”和“IT運營”這樣的說法,對應的英文是一樣的,但這里“運維”和“運營”是同樣的意思嗎?兩者之間有什么異同?
關于這個問題,仁者見仁智者見智。有人認為其實運維就是運營,用個新名詞只是嘩眾取寵的噱頭而已;有人認為運維是面向IT設施的,運營是面向業務服務的;有人認為運維是關注IT指標,運營是關注業務指標的;甚至有人說,運維是“眼前的茍且”,運營是“詩和遠方”。
總體來看,大多數人認為兩者含義并不完全一樣,很多人都認為IT運營比IT運維的層次更高,有些成熟度較高的大型IT組織已經提出并在執行“從IT運維到IT運營”的發展規劃。
但即使在提出這類理念和計劃的組織內部,對于究竟什么是IT運維管理,什么是IT運營管理,也還沒有非常清晰的分析和定義,更多的是將傳統IT運維管理領域之外的一些新內容籠統的歸到IT運營管理的部分里去。我在和某個正在執行此規劃的IT組織中的某位高管交流時,他就提到:“From Operations to Operations?連定義都沒搞清楚,怎么能成為指導方向和發展目標?”
他的問題讓我這個ITOM的老兵也開始思考“IT運營”這個新“翻譯”的真正含義,以及近幾年來它日益流行的真實原因,在和許多同業交流之后,筆者在此分享一下我關于這個問題的一些想法和心得,作引玉之磚,希望能帶來更多同業的討論和指教。
首先,IT運維和IT運營,英文都是IT Operations,在老外來看,并無區別,是指關于IT運行的所有事情。而中文之所以有兩種不同的翻譯,是因為IT Operations包括的內容很多,IT運維和IT運營兩種中文譯法分別側重其中某一部分的內容,假如歸納成一句話的話,可以說IT運維管理關注的是“活著”,而IT運營管理則有更高層次的需求,不僅要“活著”,還要“活得好”。
先看個實例,某大型數據中心IT服務能力的愿景是“以業務為中心,交付穩定、安全、高效的IT運營服務,構建業界領先的IT運營能力,支撐企業的持續發展和戰略成功。”這個愿景中,“穩定、安全”就是解決活著的問題,屬于傳統IT運維管理的范疇,“以業務為中心”、“高效”、“業界領先”則屬于如何“活得好”的范疇,更多的是IT運營管理的范疇。
能力建設是有循序漸進的過程的,任何一個組織,首先都要解決“活著”的問題,然后才有可能追求“活得好”,因此,過去三十年,在大多數IT組織面臨IT設施規模快速擴張,IT應用數量不斷增多,IT運行壓力越來越大的挑戰時,首先要確保IT系統“活著”,也就是能夠持續“運行”,穩定“運轉”,通過日常“維護”工作讓系統少出故障,出了故障能快速“維修”,“維持”系統的正常“運轉”。這個階段把IT Operations翻譯成IT運維,把ITOM翻譯成IT運維管理,無可厚非。
IT運維管理階段的關鍵詞是“穩定”、“安全”、“可靠”,關注可用性指標(MTTR、MTTF、MTBF等)、可靠性指標(RTO、RPO)和安全合規。相應地,在技術、工具和流程上,都以穩定、安全、可靠作為最優先考慮的要素:
1、技術上,傾向選擇穩定成熟的技術架構和產品,愿意為提升可靠性支付大量溢價,上得起小型機的就上小型機,買得起大機那就大機,能備份的地方就備份,盡量采用全冗余架構;
2、流程上,首先從事件管理和變更管理做起,主要目標是能確保故障事件得到追蹤和及時解決,以及管控變更避免人為故障多發,關注重點還是在提升可用性;
3、工具上,采用“監-管-控”架構,其中監控更關注設備級監控,重點發現故障節點,“管”就是配合實現變更和事件流程,至于“控”,此時上配置自動化工具,更關心的是實現配置的標準化和合規檢查,重點還是在增強可靠性減少故障,而非減少運維人員工作量。
在以“活著”為主要目標,以“穩”為主要形態的IT運維和IT運維管理發展多年后,越來越多的IT組織開始走出這個解決基本生存需求的階段,從“被動維持”走向“主動經營”,追求如何“活得好”,近十年來,APM、BSM、云計算、運維大數據等新的理念、技術和工具的出現、發展和變遷,都和IT正逐步開始從運維走向運營有密切關系,時至今日,從全局角度來看,可以說企業IT已經站在了從運維到運營的一個重要拐點上。
IT運營是建立在良好的IT運維的基礎上的,沒有“活著”,“活得好”就無從談起。但怎樣才叫活得好呢?換言之,IT運營追求的目標究竟是什么?比IT運維多了哪些東西呢?
與IT運維更多地是面向基礎設施不同,IT運營更多的是面向業務、面向服務,本質上是面向人。對于CIO來說,他所管理的IT組織假如能讓三類人滿意,我們就可以說這個IT組織已經從基本的IT運維階段走到IT運營階段,已經處在活得好的狀態了。
哪三類人呢?用戶、老板和IT人!
假如IT組織是一個獨立公司的話,這三類人基本對應著客戶、股東和員工,CIO如果是公司老板,就會知道其實這三類人是哪個都得罪不起的:客戶不滿意會流失,企業就沒有生存之本;股東不滿意會換人,說明企業沒有競爭力;員工不滿意會換地兒,企業就缺乏持久發展的能力。盡管行業特點和企業文化不同會帶來優先級和側重點的不同,但本質上,一個有長遠發展前景的卓越公司,往往是做到了讓客戶、股東和員工都滿意的公司。
IT運維階段,IT組織更多地還是在解決三類人的基本需求,讓用戶能用,讓老板批錢,讓員工干活,當然也希望大家更滿意,但受限于階段性能力和各方面因素,先能保證這些基本需求就已經很不容易了,而做到這些,在相當長時間內也已經足夠,主要因為幾個原因:
1、各企業信息化之初,能夠利用IT實現對業務和管理流程的優化、固化和自動化,就已經達到目標;
2、初期系統以內部員工為主要用戶,且沒有同類系統做對比,用戶對系統效率和體驗的容忍度高;
3、IT部門在企業內部的IT能力供給上基本是壟斷的,用戶沒有其它選擇。
因此,過去雖然IT部門提供的即使只是滿足基本需求的服務,大多數情況下也并沒有多大問題。但短短十年間,互聯網和移動互聯網大潮席卷世界的每個角落,每天用著微信滴滴淘寶攜程的用戶們的胃口已經越來越高了,過去能夠忍受的一些小問題也已經變得忍無可忍了:
1、人家網站那么快,咱們的系統怎么都是老和尚,點一下鼠標要等一炷香才動一下?
2、人家網站第一次用沒人教我就全部自己搞定,咱們系統怎么培訓幾回我都搞不清怎么用?
3、人家網站一看就是賞心悅目高大上,咱們系統怎么就總是Low逼的不行?
4、人家網站免費郵箱都無限容量,咱們怎么花那么多錢還每人限收發10M內郵件?
不知從哪天起,過去和企業IT八竿子打不著的“人家”一下子蹦出來,成了IT部門的變相競爭對手了,沒搶走用戶,但把用戶滿意度搶走了。更要命的是,隨著云計算各種aaS的風起云涌,這些“人家”未來沒準兒真的要來搶走用戶了。假如IT部門不能與時俱進,還是停留在滿足基本需求的運維上,而不主動向追求卓越的運營邁進,提供更有競爭力的優質IT服務,那就很可能會在幾年后會碰到更大的挑戰。
而在IT運營階段,與IT運維階段的關鍵詞“穩定”、“安全”、“可靠”不同,關注的關鍵詞變成了“體驗”、“效率”、“效益”。回顧前面我們提到某大型數據中心的愿景中“以業務為中心”、“高效”兩個運營關鍵詞,其實“以業務為中心”就對應著“以用戶為中心”,業務就是以用戶為中心的嗎,而用戶關心的就是體驗(穩定可靠也是體驗的一部分)。“高效”則包含著高效率和高效益兩個含義,一個關注敏捷性,交付速度、響應速度,一個關注成本收益,關注服務獲取效率。
(假如說IT運維以“穩”為主,那么IT運營則以”敏“為主,在技術架構選擇和IT管理流程和系統的建設上面,IT運營階段都和傳統IT運維階段的關注重點有所轉變,從而帶來了新舊架構、新舊工具、新舊方法并存甚至交匯的復雜情況,Gartner在提的Bimodal,聯想所說的雙態IT,也都在反映這種狀態。)
讓我們圍繞三類人的需求簡單看看IT運營比之IT運維階段要面臨的新挑戰,以及應對挑戰在出現的一些新的理念、工具和技術:
讓用戶滿意
用戶大致有兩類,個人用戶和業務部門:
個人用戶,不論是內部用戶還是外部用戶,更關心的是體驗,體驗主要是易用性、容錯性和響應速度;要提升體驗,對于IT運營管理領域就帶來了新的要求,要在傳統的設備和組件監控的基礎上,增加端到端的用戶體驗感知能力、應用性能的深入探測和分析能力、應用及系統性能瓶頸的發現和優化能力。
越來越多IT組織開始關注用戶體驗,從而紛紛部署包括外部模擬仿真探測、流量數據分析、日志數據分析、嵌碼采集探測等各種針對應用性能管理的手段工具 ,造就了近年來APM市場熱度飆升。
這些采用不同手段的APM工具雖然有功能重疊的部分,但各有其側重點,多種工具的部署能帶來數據和功能的豐富性和多樣性,對于準確測量和提升客戶體驗是有必要的,事實上在那些特別重視用戶體驗的IT組織里,已經或者正在進行全方位的工具部署,并在嘗試在各種專業分析工具之間架設運營大數據工具,集成多樣化數據,提供數據的統一可視化和整合分析等能力,提升故障和優化點的定位分析能力,深度改善用戶體驗。
業務部門,除了關心最終用戶的體驗,更關心交付效率,與之相應的,IT部門開始在各個環節上采用新架構、新技術和新工具,從各個環節上提升效率,加快業務服務的交付速度。
1、提高采購流程和硬件上架的效率:IaaS云和資源池模式改變了傳統的按需采購模式,通過資源整合,將資源規劃和資源準備的工作批量前移,極致地提高了預算、采購和硬件上架的效率;
2、提高系統部署和應用發布更新的效率:采用各種云管理工具、云管理平臺及DevOps工具,通過自動化部署、配置管理等功能組件的組合,或從橫向的系統層次上,或從縱向的應用發布運行鏈條上,或者協同配合,不同程度地提高了應用組件甚至是整個業務系統的交付和發布效率,實現對業務部門交付需求的及時甚至實時響應,達到“敏捷”的程度。
讓老板滿意
讓用戶滿意是讓老板滿意的基礎,假如業務部門天天在老板那兒告狀,老板怎么都滿意不了。但是即便業務部門都說你好話了,老板就會滿意了嗎?要是你真的這么認為,說明你太不了解老板這種動物了。
老板要的不只是結果,也一定會追求高效率和高效益,同樣的成果,能否用更低的成本達成?我們現在的成本收益水平,對應業界同行,是人傻錢多還是精明高效?說要追求“業界領先”,怎么就是領先了?不能說技術更新應用更多就是領先吧?總要有個從效益角度的衡量方法吧?假如IT部門是一個獨立運營的實體,作為給錢的股東,也是要問這些問題的。
效益本質上是投資回報率,成本越低,效益越好,做的事情越有用,效益越高。要追求高效益,首先面臨的難題是要有一套成本收益的衡量體系,沒有量化方法,既搞不清楚IT部門當前在同業中所處的水平,更無法通過指標考核的方式推動IT部門不斷提高效益水平。
在沒有這套衡量體系的時候,往往只能采用一些非常粗線條甚至感性的衡量方式,比如看每年的IT采購金額、IT員工數量、工業標準產品的采購單價等,導致很多IT部門在采購時往往要求廠商保證提供同行業最低價,可當大家都這么要求的時候,顯然很難真正起到效果。更為重要的是,由于每個企業在業務和IT服務方面存在的差異性,這些粗線條指標并不能反映IT部門的效率和效益水平。
ITIL體系中早就提出了IT服務財務管理的概念,許多IT組織在過去十年嘗試了一些BSM(業務服務管理)和ITFM(IT財務管理)的項目,一個重要動因就是試圖建立IT效益的衡量體系,可在內部IT部門中成功者寥寥,主要原因是全部精力投入到基礎運維工作中還忙不過來,另一方面也和缺乏特別成功的最佳實踐有關。
不過隨著大家的不斷嘗試,伴隨近年來IT架構的演進和公有云的興起,一些走在前面的IT部門已經看到了建立IT效益衡量體系的可能性,并開始在某些架構層級上開始嘗試性的探索:他們采用服務分層、成本歸集、各自對標的方式,對DC層、IaaS層、PaaS層的資源單位成本、資源利用效率、能源單位成本、能源利用效率和人員運營效率進行分別統計和分析,并分別和IDC、IaaS云、PaaS云的外部供應商市場價位水平做對照,來衡量自己的效率和效益水平。
IT效益衡量體系的建立,也讓IT自己可以從效益角度分解目標,推動IT內各個部門能夠逐年不斷提升效率和效益水平,讓IT部門的思考方式從成本中心轉變到利潤中心。近年來綠色數據中心概念和PUE指標被關注,都反映了這一變化趨勢。
要注意的是,即使建立了效益衡量體系,要讓它真正發揮作用,離不開大量的數據統計和數據分析,以及關鍵效益指標的可視化和透明化,很多IT組織開始嘗試建立IT運維/運營大數據平臺,引入可視化和BVD概念,也都和追求IT效益可衡量有密切關系。而這些也會帶來額外的投入,IT組織可以根據自身的規模和目標優先級,在有必要的情況下,選擇合適和成熟的切入點,分步嘗試,逐漸建立效益衡量體系。
讓員工滿意
互聯網企業的火熱和各行業“互聯網+”的熱鬧,都帶來了IT人才的爭奪,如何吸引和保留高素質的IT員工,已經成為許多IT部門不得不面對的新問題。要讓IT員工滿意,前面的兩個滿意(用戶滿意和老板滿意)也是個重要基礎,否則IT部門自己地位都不高,員工也沒有成就感,士氣低迷,滿意度很難高起來。
但即使做到了前面兩個滿意,假如讓IT員工每天都疲于奔命,員工滿意度同樣會差,也不是長久之計。要解決員工滿意度的問題,有幾個方面是要考慮到的:
1、提高自動化水平:與運維階段自動化更關注的是讓標準化落地以減少故障不同,運營階段更關注通過自動化減少員工的重復性勞動,更多地將精力放在能帶來更大價值的標準制定和技術優化上面,讓IT員工從技術工人變成真正的工程師;(自動化也會帶來效益的提升,隨著分布式、虛擬化和云計算的普及,自動化已經成為不可或缺的手段,在一些大型互聯網公司,人均管理服務器數量早已超過了業界1:200的良好水平)
2、增加人性化因素:傳統運維階段為了穩定安全不但在軟硬件上投入巨大,而且往往在某種程度上不惜增加員工工作的繁瑣程度,在人性化方面考慮較少。不少IT組織已經開始從幾個方面進行改善:優化流程并引入新工具以減少員工的繁瑣文案工作;提供場景化運維能力改善工具的易用性,讓IT人員在運維和排障工作中更得心應手,提高IT系統穩定性的同時形成以工作場景為中心的運維方式;與時俱進引入新技術,在保持安全和風控水平的同時改善IT人員的操作復雜度(比如打破僵硬的網絡隔離機制、實現移動化運維等);
3、嘗試和引入先進技術:為追求穩定安全,傳統IT運維在技術選擇和使用上偏向保守,這固然有其道理,但優秀的IT人往往是對新技術有追求的,在技術演進日新月異、新技術傳播和應用速度如飛的今天,假如工作中接觸不到新技術新思路,IT人的技術追求被壓抑,并往往會伴生強烈的技術危機感,會導致對IT人才吸引力和保持力不夠。
IT部門應在技術規劃中重視這一因素,在保證關鍵業務穩定運行的前提下,有意識有計劃地不斷嘗試和引進新技術,確保技術的先進性,拋開其它收益不談,但就提高員工滿意度和優秀人才吸引力而言,已經是非常值得的。
以上從三個滿意的角度簡單聊了聊從IT運維到IT運營的一些內容,有趣的是,這些滿意是遞進和包含的關系,讓員工滿意包括讓老板滿意,讓老板滿意包括讓用戶滿意,讓業務部門滿意包括讓個人用戶滿意,但每個滿意之間又都有各自的個性化內容。
要做到三個滿意,讓IT從“活著”到“活得好”,從重點“維”穩走向經營業務價值,意味著IT管理要更加精細化、自動化、智能化,也必須建立多樣化的數據采集、多維度的數據分析/挖掘和全方位的可視化的能力,IT運營管理的架構也將在傳統監管控的IT運維管理架構上有所發展和變化,以適應IT運營在體驗、效率和效益方面的更多要求。
需要注意的是,IT涉及到規劃、設計、開發和運營多個環節,我們更多的是從運營的角度來談的,事實上要從IT運維走向IT運營,不僅需要運營部門(不再只是運維部門啦)的努力,也需要規劃、管理和開發部門的協同配合和齊頭并進。
從IT運維到IT運營,其實標志著IT組織成熟度的提升,假如借用Gartner的I&O成熟度模型來看的話,IT運維更多是在前幾個階段,而更多開始關注IT運營,則標志著IT組織走到了后兩個階段:Service Aligned和Business Partnership,開始把IT本身當做業務來運營,以客戶為中心,關注客戶體驗,運營效率和成本收益。
從IT運維到IT運營,許多IT組織已經在路上,同樣也有許多IT產品和IT服務的提供商已經洞悉到這一發展趨勢,配合IT運營的要求,開發和提供了許多新的運營工具和運營服務,我們希望能夠與各位有志于ITOM領域的同仁們一起,齊心協力,精益求精,共同提供優秀的ITOM產品和服務,為IT從運維到運營做一點事情,讓IT不僅活著,而且要活得好,活得精彩。