據Gartner研究,在過去幾年內,IT運營人員 (IT Ops) 發生了巨大變化。這種變化的推動力來自于企業IT運營團隊認為傳統IT管理技術和方法已經無法適應數字化業務轉型。
Gartner預測,我們會看到當前的IT應用程序會發生劇變,而且我們管理整個IT生態系統的方式也會改變。這些變化的關鍵是Gartner所稱的AIOps平臺。
AIOps是什么?
AIOps指多層技術平臺,這些平臺采用分析和機器學習技術分析從多種IT運營工具和設備收集的大數據,自動實時確定并應對問題,從而實現IT運營的自動化和增強。
Gartner解釋了AIOps平臺如何采用下圖所示模式而運行。AIOps包含兩個主要組件:大數據和機器學習。它要求摒棄孤立的IT數據,以整合觀測數據(例如在監控系統和工作日志中發現的數據)和大數據平臺內部的交流數據(通常存在于工作單、事故和事件記錄中)
然后,AIOps針對匯總的IT數據實施一種綜合的分析和機器學習 (ML) 戰略。這樣做的預期成效是獲得持續的洞察力,進而采用自動化能力實現持續改進和修復。AIOps可視為核心IT功能的持續集成和部署 (CI/CD)。
Gartner的AIOPS平臺示意圖
AIOps將三個不同的IT專業結合在一起 — 服務管理、性能管理和自動化 — 以實現持續洞察和改進的目標。在我們新的IT加速環境中,AIOps是一種識別策略,必須采用由大數據和機器學習支撐的新理念。
AIOps的來歷
對于傳統企業來說,AIOps并不是一個全新的理念,而是IT運營分析和管理(ITOA/ITOM)體系與大數據和人工智能技術結合的產物。
AIOps智能運維以ITOA/ITOM系統所采集的運維大數據為基礎,利用人工智能和機器學習算法對運維數據進行深入分析,涵蓋IT監控,應用性能管理、外網監控、日志分析,系統安全等方面。
市面上流行的傳統運維管理平臺,其核心組件缺少大數據采集、分析和本地機器學習的能力,需要業務運維和AIOps平臺予以完善。
AIOps智能運維平臺能夠接入不同業務系統、監控系統、管理系統的海量IT數據,并運用各種算法進行高速分析、學習甚至預測。
立足于AIOps,IT部門可以獲得強大的自動化IT決策和運營管理能力,并能對業務質量和用戶體驗進行準確檢測和持續優化。
AIOps的推動因素有哪些?
AIOps是足夠新的IT平臺,甚至還沒有自己的維基百科頁面。AIOps是Gartner IT運營分析 (ITOA) 的下一步演進。它的產生基于影響IT運營的多個趨勢和需求,包括:
IT運營部門手動管理基礎架構的難度。此處使用“基礎架構”一詞有些不當,因為現代化IT環境包括受管理的云、不受管理的云、第三方服務、SaaS集成、移動等。管理復雜性的傳統方法在動態、彈性環境中行不通。如果通過手動方式跟蹤并管理這種復雜性,人類的監督能力已經不再可能。當前的IT Ops技術已經超出手動管理的范圍,而且這種情況以后會越來越差。
IT運營部門需要保留的數據量呈指數增長。性能監控產生的事件和告警數量呈指數級增長。服務單數量隨著IOT設備、API、移動應用和數字或機器用戶的引入而獲得了跳躍式的增長。同樣,手動報告和分析變得異常復雜。
基礎架構問題必須更快地解決。隨著企業的業務逐步數字化,IT也變成了業務。技術的“消費化”改變了所有行業中的用戶期望。對IT事件的響應–無論是切實發生還是認為會發生的事件–需要立即進行,尤其是在問題影響用戶體驗的情況下。
更多計算能力轉移到網絡邊緣。云基礎架構和第三方服務的輕松采用使業務線 (LOB) 職能人員能夠構建自己的IT解決方案和應用。控制權和預算從IT核心轉到邊緣。更多計算能力(可充分利用)來自核心IT外部。
開發人員擁有更多權力和影響力,但責任仍由核心IT人員承擔。DevOps和敏捷迫使編程人員在應用層面承擔更多監控職責,但IT系統的整體健康狀態以及應用、服務和基礎架構間的交互仍由核心IT部門負責。隨著網絡日益復雜,IT運營部門要承擔更多職責。
AIOps的要素
對于AIOps理念,舊有的IT運營方式不適合以上需求所定義的新世界。同樣,Gartner將IT運營管理 (ITOM) 和應用性能管理 (APM) 定義為魔力象限市場,而且Gartner可能也為AIOps市場創建一個魔力象限。
AIOps平臺由以下要素組成:
構成AIOps平臺的技術
全面且不同的IT數據源 - 來自目前孤立的工具和IT領域,例如事件、指標、日志、作業數據、工單、監控等。
大數據平臺 – 匯總IT數據,用于進行歷史分析、實時響應和洞察。
計算(運算)和分析 – 使系統能夠從現有IT數據中生成新數據和元數據。運算和分析也消除了噪聲,可識別模式或趨勢,隔離可能的問題,發現底層問題,并且實現其他IT特定目標。
算法 – 利用IT領域專業知識,根據企業數據及其預期成果的要求,以智能化方式適當且高效地運用計算和分析能力。
無人監督的機器學習 – 可根據算法分析輸出結果和引入系統的新數據而自動修改或創建新算法。
可視化 – 以易于使用的方式向IT運營人員呈現洞察和建議,有助于加深理解并采取行動。
自動化 – 采用分析和機器學習成果自動創建并運用響應措施,或者針對已發現的問題進行改進。
如上文所述,AIOps平臺應包含性能管理、服務管理、自動化和流程改進等IT學科, 以及監控、服務臺、容量管理、云計算、SaaS、移動性、IoT等技術。
AIOps是IT走向運營的點金手
未來幾年,數字化系統的運行效能對企業核心競爭力的影響越來越大,CIO所領導的IT部門在運營中所扮演的角色也越來越重要。
然而,隨著系統規模和復雜度呈指數級增長,IT人員解決問題的能力不會有太大的變化。要讓IT擺脫傳統運維工作的束縛,就需要運用AIOps智能運維平臺來有效承擔基礎運維的種種責任。
在AIOps的幫助之下,IT人員可以從繁瑣的常規工作中得到徹底的釋放,專注于對企業發展更有價值的工作 – 業務和用戶體驗,讓IT真正走向運營。
“AIOps正在廣泛應用于IT大數據和業務大數據分析領域,為企業提供極具價值的業務洞察能力”。
據Gartner分析師最新預測,到了2022年,部署AIOps平臺的大型企業數量將從如今的不足5%,迅速提升到40%左右,而這些企業會把AIOps用于業務運營和IT運維,以取代如今的運維監控、管理工具和自動化運維產品。
當企業的數字化程度越來越高, IT系統的復雜度和規模越來越大,擺在CIO面前的這道雙選題:是不斷增加業務流程?還是采用AIOps平臺?似乎不難抉擇......