原文:《高校智慧校園建設 一體化運維平臺方案》

1 高校智慧校園建設目標

提高高校智慧校園設備現代化、科學化管理水平,用新的、帶有超前意識的智能運維管理方式來取代傳統的、滯后的管理方式,變被動維修改為主動、智能監控,變無序管理為流程化高效管理,為高校智慧校園設施運維提供一個智能化、流程化、可視化的集中、統一、高效、個性化的管理門戶平臺。

1)對省內高校內外網設備實行統一智能管理,系統自動了解各設備的實時運行狀態,及時發現設備的故障,完成運維流程化記錄;

2)及時了解IT設施的運行趨勢,故障處理效率有待提高,故障處理的預見及趨勢分析;

3)對業務系統整體健康狀況和運行趨勢的監測,判定業務系統是否存在運行瓶頸及潛在運行風險,從而確定是否需要調優或采取主動防范風險的措施;


2 詳細方案描述

2.1 運維管理中心

2.1.1 系統邏輯架構

  運維管理中心采用模塊化設計,有著最優的數據處理性能及用戶體驗,得益于平臺采用了最前沿的技術及科學的系統架構。平臺主要分為四層結構,分別是數據源接入層、采集層、數據處理層以及應用管理層。

                                             

圖表:技術運營中心邏輯架構圖

2.1.2 數據接入

數據接入層負責將機房環控系統、運維監控系統、及其他業務系統的告警數據整合,此外還提供更提供強大的 REST API 以及方便的 Email、短信集成方式,可將任何系統的告警數據快速接入到技術運行中心。

2.1.3 采集層

運維管理中心主要以被動接收和主動采集兩種方式,針對內網中的數據可以通過運維監控工具進行采集,并上傳給運維管理中心;針對其他工具的告警及郵件、短信告警數據主要采取主動抓取數據。

2.1.4 數據處理層

數據通過被動接收或主動采集到達運維管理中心后,數據進行閥值比較、告警觸發、通知觸發、以及性能數據存儲等一系列處理。

2.1.5 應用層

數據經過一系列處理后,運維管理中心以項目的角度進行數據集中展現、數據分析,并提供告警、通知、權限等的管理。

 

2.2 運維監控系統

2.2.1 對基礎IT架構的全面監控

2.2.1.1 對主機操作系統的監測

對各種操作系統(Windows、Linux、Solaris、HP-UX、AIX、中標麒麟、浪潮天梭K1)基本性能指標的監測。如 CPU 性能相關參數,系統邏輯及物理磁盤性能相關管理參數,系統內存性能相關管理參數。對基礎應用服務監測。可以監測的指標有:HTTP/HTTPS,SMTP/ POP3,FTP,DNS服務,DHCP服務,LDAP。

主要監測指標如下:

?  CPU利用率:顯示系統、用戶、空閑時間的百分比

?  虛擬內存(Virtual memory)利用率

?  文件系統使用情況:顯示監測UNIX分區、Windows邏輯盤的剩余空間及使用率

?  物理內存使用率:監測內存的使用率及剩余空間

?  監視重要的文件:如發現文件被修改或文件大小迅速增長時,向系統管理員報警和產生相應的動作

?  端口監測:能夠定期監測主機上TCP/UDP端口的狀態和占用進程,監測的端口可由用戶指定,并可以顯示系統所有的端口占有情況

?  進程監測:能夠定期監測進程多個實例、子進程、進程對CPU/內存的占用情況等等。當重要進程因意外原因終止時,可根據需要自動重啟,并將報警信息寫入事件日志

?  遠程Ping監測:能夠指定遠程IP設備,定期監測主機和指定遠程設備的ping響應速度,丟包率等

?  對于UNIX操作系統:可以監測系統平均負載、IO讀寫情況以及虛擬內存、交換空間、Paging Space等的使用情況。對于Windows操作系統,可以監測操作系統Event Log、NT服務

圖表:操作系統狀態監控視圖

2.2.1.2 對網絡設備的監控

運維監控系統 對網絡設備狀態監測主要通過SNMP方式為主,能夠監控國內外主流廠商的網絡設備,可以監測的相關參數有:CPU使用率、內存使用率、端口管理和運行狀態以及流入流出量、流入和流出使用率、單播接收和發送包數量、網絡流量(平均流量和最大最小值等)和帶寬、網絡鏈路聯通性等。還可以通過Syslog、Trap協議被動接收網絡設備發送的告警,如安全設備一般都會主動將其受到攻擊的信息通過Trap向管理平臺發送。還可以通過ICMP協議檢測線路的性能。監控系統對網絡設備狀態監測和管理包括以下重要的指標:

?  網絡設備 CPU 的使用率、網絡設備的內存使用率、網絡設備接口的丟包率和誤包率、廣播包、非廣播包、網絡設備接口到對端設備接口的丟包率和網絡延遲。

?  提供網絡設備相關硬件信息及運行狀態的數據報表

?  流入、流出廣域網、局域網的網絡流量監測。

?  支持基于設備端口的實時性能分析,支持鏈路的實時性能分析。

?  為管理員提供Ping、Tracert、Nslookup、snmp 掃描、Ping掃描、MIB瀏覽器及MIB編譯器等檢測工具。

?  提供網絡歷史性能數據的記錄與分析管理,以按每分鐘、每五分鐘,每十分鐘、每天、每周、每月等間隔時間生成歷史數據分析報表,報表樣式分為柱形圖、線形圖、面積圖、儀表圖等,為用戶分析網絡運行情況做出有力依據。

?  VLAN 的監測,如 VLAN 端口的狀態和流量等。

?  支持端口的95值計費功能;

 

圖表:網絡狀態監控視圖

2.2.1.3 對數據庫的監測

運維監控系統 通過JDBC,對主流數據庫進行監測,包括Oracle、Oracle RAC、DB2、SQL Server、Mysql、達夢數據庫等,能夠監控數據庫關鍵性能指標,如表空間、鎖狀態、會話狀態,并且能夠把占用數據庫資源較多的SQL語句進行排序,方便管理員查找數據庫瓶頸。

監控系統對于數據庫可以監測以下重要性能指標:

?  數據庫可用性監控:能夠監控數據庫引擎的關鍵參數、數據庫系統設計的文件存儲空間、系統資源的使用率、配置情況、數據庫當前的各種鎖資源情況、監控數據庫進程的狀態、進程所占內存空間等

?  用戶表空間和系統表空間使用率

?  數據庫事務日志空間的使用情況監控

?  數據庫關鍵進程的內存使用以及關鍵進程的狀態

?  能夠監控可用的鎖資源狀態

?  對于Oracle RAC,能夠監測到RAC狀態、集群的狀態、表決磁盤信息、TNS狀態、ASM狀態等,并通過一體化視圖進行全局狀態展現

 

圖表:Oracle 數據庫狀態一體化視圖

 

圖表:Oracle Rac 集群環境狀態一體化視圖

2.2.1.4 對中間件的監測

對于中間系統可以支持對于主流中間件的性能指標監測,包括:Weblogic、Websphere、Tuxedo、Tomcat、Apache、IIS、東方通等。監控指標包括Thread Pools的狀態和監測WebLogic服務器應答時間,所有web應用的指標,用戶會話等,主要性能指標如下:

?  對所有web應用的指標的監控

?  對日志文件的分析

?  對Jms目標、會話,連接進行監控

?  JDBC Pool、等待連接的時間 、正在使用的數據庫連接所占比例

?  JTA事務錯誤情況

?  JMS消息服務狀況

?  自定義應用Mbean (JMX) 屬性等

?  服務器線程池工作狀態

 

圖表:中間件狀態監控

2.2.1.5 對存儲設備的監測

運維監控系統 可以通過Agent、SNMP 、SMI-S或 Trap,對用戶架構中核心智能存儲等進行監測,如EMC系列存儲(VNX、DMX、CLARiion)、QuanTum 、HDS、IBM_DS、IBM_V系列、HP系列存儲(3PAR、EVA)、華為,浪潮AS系列等。

監控系統對存儲設備狀態監測和管理包括以下重要的內容:

?  存儲 IOPS;

?  磁盤空間,可用率,運行狀態;

?  電源,風扇狀態;

?  控制器狀態;

?  對性能數據的采集支持自動化調度的方式,支持Cluster、Array、Volume等不同級別的性能監控,能展示設備歷史和實時的磁盤性能狀況以及Write I/O Rate、Read I/O Rate、Read Cache Hits、Write Cache Hits、Read Data Rate等性能指標;

?  支持存儲性能及磁盤、主機、盤籠之間的架構圖展現,如下圖:

 

圖表:HP 3PAR存儲性能視圖展現

2.2.1.6 對云計算的監控

   云計算所屬的虛擬化環境相對于傳統的物理環境,變得“看不見、摸不著”,對于管理也是一種新的挑戰。運維監控系統 云計算監控管理通過圖形化方式構建出宿主機、虛擬機、虛擬網絡、數據存儲間資源使用情況,從全局到局部的一體化視圖,便于用戶直觀全面了解當前虛擬化環境的健康狀況。

運維監控系統 對于云計算架構從物理層到虛擬層實現全面的監控,將每個虛擬主機操作系統當作獨立服務器,實時監控虛擬機的資源性能,并在資源性能不足時發出警告,提醒管理員關注并及時從物理機資源池中分配更多的虛擬資源。對于Hyper-v虛擬化平臺的監控,能夠實現在虛機發生漂移后產生告警,提示用戶當前虛機漂移的目的IP信息。

運維監控系統 能夠實時監控到不同物理機的整體資源性能,并在資源性能不足時發出警告,提醒管理員技術擴容硬件資源。

運維監控系統 能夠動態監控物理機與虛擬機之間的動態漂移,實時展現每一臺物理機上正在運行哪些虛擬主機系統,并以圖形化界面展現和查詢物理機IP與虛擬機IP的對應關系,能夠監控主流的虛擬平臺,包括Vcenter、Vsphere ESX、KVM、XenServer、Hyper-V、OpenStack、Docker、FusionCompute。

?  宿主機的基礎信息

?  物理資源狀態及使用情況(CPU、內存、存儲、網卡流量)

?  虛擬機一覽表

?  磁盤讀寫、網卡流量曲線圖

?  虛機漂移等,如下圖:

圖表:虛擬化平臺一體化視圖展現

2.2.1.7 服務器底層硬件監控

運維監控系統通過帶內、帶外方式兩種方式對PC服務器、小機及刀箱底層硬件狀態進行全面的監控,包括電源、風扇、物理硬盤、Raid卡、插槽等硬件信息,代替管理員的日常機房巡檢工作,使管理員實時了解到服務器底層硬件的運行情況,此種監控方式不通過操作系統,即使系統關機的狀態下仍可監控服務器的基本硬件健康狀況。

對于X86服務器,運維監控系統能夠自動采集到服務器的品牌、型號、SN、PN等資產配置信息,并且支持和CMDB對接,實現配置信息同步。

 

圖表:服務器硬件狀態一體化視圖展現

 

圖表:服務器資產配置信息采集

此外還能夠對服務器的Errorlog、Eventlog硬件報錯日志進行監控,從多個維度實現對服務器硬件信息的全面監控。

 

圖表:對AIX服務器硬件errorlog監控信息

能夠監控到的服務器類型包括:IBM、DELL、HP、ThinkServer、AIX、虛擬化宿主機服務器及其他支持IPMI協議的服務器。能夠監控到的指標如下圖所示:

 

圖表:服務器底層硬件監控信息

2.2.1.8 資源的監控添加方式

運維監控系統 產品對被管資源的數據采集支持“自動發現”和手工輸入兩種方式配置被監測對象的配置參數,并通過主動輪巡機制,使用SNMP、Agent等多種采集方式來實現性能數據的采集。對于Agent采集,運維監控系統可以實現批量部署,節約部署時間成本。并且可以通過多種方式來集成和接收第三方管理工具和用戶私有系統的告警信息和數據。

圖例:自動發現

2.2.1.9 數據獲取方式

支持的部分采集協議如下:

SNMP get (polling),SNMPtrap,Syslog,TCP,POP3,JDBC,ODBC,WMI,Shell,HTTP,HTTPS,ICMP,DNS,FTP,JMX,SMI-S等協議類型。

系統能夠依據管理的需要,定時向需要監測的管理對象(可以是一個設備或者一項服務)發出監測請求,運維監控系統 監測系統的數據采集間隔可以靈活配置,支持最小5秒的輪巡間隔;并將記錄返回數據作為告警和性能診斷的依據。可以支持SNMP輪巡的數據采集,SNMP協議支持V1、V2c和V3多種版本;可以支持在被管主機服務器上使用代理程序Agent的采集方式;系統可以提供兩種Agent分別用于Unix/Linux和Windows服務器平臺;支持單一的Agent模式,即當主機服務器上的被監測應用項目發生變更或增加時,無需更換或添加額外Agent程序。使用Agent數據采集方式,可以對被管服務器進行文件掃描、目錄檢測、接口調用等方法來擴展監測的范圍。監測系統管理平臺支持對業務應用系統自身關鍵性能點的自定義監控;運維監控系統 提供界面配置的簡易方式來擴展自定義的個性化監控器。如圖所示:系統支持用戶可以通過自定義Shell腳本、WMI腳本擴展個性化的數據采集能力。同時個性化的數據采集能力能支持單位的換算以及比率或變化率能的計算。

圖例:自定義腳本指標

可以支持其他多種協議進行主動式的數據采集,包括:

TCP端口探測、POP3、JDBC、ODBC、WMI、Shell、PerfMon、HTTP/HTTPS、Ping、DNS、FTP、JMX等。

2.2.2 資產管理

資產管理是IT運維管理的核心樞紐,一個準確的資產管理能幫助運維人員更高效地管理IT基礎設施。從以往經驗來看,要想建設好資產管理,首先要降低數據錄入繁瑣性,其次是保證數據的準確性,再者是提高易用性,可以靈活的為IT服務管理提供支撐。

 

2.2.2.1 精細化的資產分類

資產分類極大程度決定數據管理的顆粒度,科學的分類有利于維護資產管理的后續關系。運維監控系統 依據多年的運維經驗, 默認的分類和現有的監控分類無縫吻合,極大的方便了后續的數據自動采集,定期更新等

圖表:資源分類及顯示參數

 

2.2.2.2 全面化的資產檔案

資產檔案管理數據不僅僅需要分類明確,對于每類資產信息的展現也需要深入全面,運維監控系統提供自動發現配置信息功能,可以發現絕大部分的資產配置信息,包括網絡設備、服務器、操作系統、PC機等。

對于服務器硬件,系統可自動發現制造廠商、型號、SN、PN等關鍵信息,并且可以自動同步到相應的資產記錄當中;對于維保時間,可通過手動自定義維保時間,當維保到期,出現高亮或者告警提示,代替資產管理人員維護資產生命周期。

圖表:精細化的資產檔案

2.2.2.3 簡易化的資產維護

當在系統添加設備監控時,系統會自動發現配置信息,根據關鍵字自動創建每條資產數據,后續會在間隔時間內自動檢查配置信息是否變更,如果出現變更,可及時發出告警;另外,還提供手動輸入及資產導入功能,方便的初始化資產數據信息,降低初始化成本。

圖表:資產記錄詳細信息

 

2.2.3 對監測數據的分析展現

運維監控系統提供統一的管理和展現頁面,同時支持靈活定義的管理視圖配置,為不同角度和層面的管理者提供不同的管理視圖。其中包括自定義Portal視圖、資源狀態視圖、業務關聯視圖、以及自動拓撲展現、走馬燈展現等。在各種類型的視圖中,可以方便地查看到被管資源的狀態、主要性能信息以及告警信息等。

2.2.3.1 我的關注Portal展現

運維監控系統對于我的關注頁面的顯示模塊、顯示位置、顯示內容都能完全自定義,如下圖:

運維監控系統 首頁我的關注Portal展現

2.2.3.2 基礎數據大屏展現

運維監控系統大屏展現視圖以動態模式為管理者提供全局業務狀態一覽。業務健康度視圖以動態掃描的方式清晰的呈現業務的層級結構以及健康度、故障信息,掃描到的業務區域能夠提供健康度信息、業務依賴的資源信息以及告警信息。業務狀態矩陣圖可以批量顯示多個業務的基本狀態信息。趨勢對比圖則很好的展現了核心關注指標的歷史運行信息。從整體到局部,運維監控系統的大屏展現無疑通過管理者的視角為業務進行了一次健康體檢!

動態可視化業務大屏展現視圖

運維監控系統不僅支持對業務健康度的大屏展現,而且提供了資源的全局狀態展現。資源狀態統計能匯總監控系統中全部的資源情況,并且可以通過餅圖統計出各類告警級別的資源占比。運維監控系統特有的資源狀態散點圖,能以動態方式呈現海量資源健康狀態分布,方便運維人員從全局觀看資源健康情況。

動態可視化資源大屏展現視圖

 

2.2.3.3 資源狀態視圖

運維監控系統通過儀表盤、曲線圖等可視化的方式展現被監控資源的主要指標狀態,如主機系統、云計算、weblogic中間件、數據庫、服務器硬件等等,如下圖所示。

資源視圖展現

2.2.3.4 業務拓撲展現

運維監控系統提供了業務的管理視圖,業務的管理視圖以一個CIO的視角來查看和管理整個業務和基礎IT元素之間的關系。在一張業務視圖中就可以看到組成這個業務的各個基礎IT元素的運行情況;

運維監控系統定義了IT架構的四個層級,通過監控平臺梳理業務的層級關系,從用戶的視角展現出真實的業務流向及層級之間的依賴關系,實時了解到該業務系統包含有哪些資源,有故障的資源在哪個層級,快速定位故障點。

底層的設備故障直接影響到上層業務的運行,通過業務拓撲視圖,解決了故障定位不清晰,層級依賴不清晰的問題,為“自上而下”排查故障提供依據;

能夠實現以下主要功能,包括:

·         在全面采集IT基礎架構的基礎上,建立核心業務應用系統與IT資源和指標之間的邏輯拓撲關聯視圖

·         業務拓撲視圖支持同一個IT設備或指標關聯多個業務對象,指標的狀態能夠依據所定義的關聯關系,傳遞到多個業務拓撲分支中。

·         業務拓撲視圖中實時刷新業務和相關IT資源的健康狀態,以不同顏色顯示;可靈活定義刷新時間;

·         業務拓撲視圖支持靈活縮放比例顯示。

·         拓撲圖可以JPEG文件格式導出為圖片文件。

·         支持背景圖、圖標文件的自定義設置。

·         業務拓撲視圖提供定義多個層次,比如一個復雜的業務可以定義多個子業務系統。

·         與管理員權限結合,可以實現不同管理權限的用戶登錄后查看到不同業務的邏輯拓撲監控視圖。如下圖:

圖表:業務關聯拓撲視圖

2.2.3.5 自動拓撲展現

運維監控系統提供了自動發現拓撲功能,能夠發現全網拓撲、指定網段拓撲、路由拓撲,能夠自動關聯系統已經監控的設備的狀態在拓撲圖上實時顯示。系統還支持自定義拓撲功能,管理員可以自行增加各種管理視圖,并以可視化圖形的方式展現各種管理視圖。每個管理視圖都將展現不同資源之間的關系、資源的當前狀態和告警報警情況。每個管理視圖也可以設置不同的標題和背景圖。在自定義拓撲頁面能夠顯示拓撲元素的告警信息和資產信息等數據。

自定義拓撲增加和編輯的方式也非常方便,只需要將資源樹中的資源或指標拖拉的方式就可以加入視圖中,所有的操作都是可見即可得,如下圖:

圖表:自動發現拓撲

圖表:自定義拓撲展現

2.2.3.6  “走馬燈”輪詢展現

運維監控系統對于不同用戶創建的自定義Portal視圖,可以通過 “走馬燈”的方式進行多Portal視圖的輪詢展現功能。通過對不同的自定義Portal視圖進行間隔的切換展現,能夠使相關的人員能夠知道當前IT網絡環境中所關注資源的整體運行狀態,了解每個部門或者用戶重點關注的資源實時狀態,如下圖:

圖表:“走馬燈”輪詢展現視圖

 

2.2.4 監控數據報表

2.2.4.1 運維監控報表

運維監控系統內置二十多套統計報表默認模板,管理員可以指定統計報表的時間區間,并選擇指定將哪些資源加入到統計報表中。

報表定支持定時發送功能,管理員可以設置報表統計類似,統計時間段,并設定報表定時發送時間,系統會在預定時間自動發送統計報表到指定接收郵箱中,讓運維人員無需操作系統頁面也能及時了解到自己關注的信息。

圖表:統計報表自動發送郵件設置

同時系統還支持手動發送報表至指定郵箱中,用戶在頁面瀏覽某項報表時,如果想將此項報表發送到指定郵箱中,則即可在頁面進行相應操作:

圖表:手動指定發送某項統計報

2.2.4.2 自定義運維報告

用戶在報告模板中可以靈活排版,除了自己編寫文字報告,還可以嵌入動態的數據對象,包括:被監控的資源指標數據、趨勢曲線、已經存在的統計報表。 系統依據報告模板動態生成的電子運維報告,并以WORD格式呈現和導出。

用戶可以依據運維管理的需要定義自己的運維報告模板,比如日報、周報; 又比如:主機運維報告、網絡運維報告、數據庫運維報告等等。

圖表:自定義運維報告設置

2.2.5 告警事件管理

2.2.5.1 事件的集中管理

A.   運維監控系統 支持大集中的事件管理功能。

事件來源不僅包括監測指標違反門限閾值時產生的異常事件;還要支持通過SNMP Trap 和Syslog 接收的第三方系統產生的事件。

B.   運維監控系統 支持靈活的事件分類管理。

管理員可以定義事件的各項信息匹配條件實現對事件進行任意的分類定義。并能依據自定義分類進行查詢和統計;

圖表:靈活自定義事件分類規則

C.   事件的級別

根據事件信息的嚴重程度,將事件信息劃分為如下級別:緊急事件、主要事件、次要事件、警告事件、正常事件;不同級別的事件用不同顏色顯示。

D.   事件的集中展現

提供集中統一的界面顯示來自不同資源的事件信息;不同級別的事件用不同顏色顯示;異常事件發生時,應自動將異常狀態顯示在各類監控視圖中的相關資源和業務對象上。并實現從狀態監控視圖到事件管理界面的跳轉。

E.   多用戶分權限的事件管理

事件管理與帳號權限相關聯,不同管理員進入事件展現界面,應根據管理員帳號權限決定可以訪問的事件范圍;

F.   管理員可以將最近的未處理事件列表加載到首頁Portal中重點關注;

2.2.5.2 事件的智能壓縮

運維監控系統 支持事件的屏蔽(黑名單)、壓縮和過濾策略,減少誤報。

支持對持續重復事件進行壓縮顯示,避免大量重復事件造成信息擁堵;

支持連續N次采集違反閥值才生成異常事件;

支持M次采集中至少發生N次才產生事件等事件分析策略;

圖表:自定義事件屏蔽規

圖表:事件連續性閥值

圖表:事件間隔閥值

 

2.2.5.3 事件的處理流程

運維監控系統 提供事件確認、反確認、清除等規范的事件處理機制。

事件的管理應能夠區分“未處理事件”和“已處理事件”。管理員只需關注未處理的事件

對于已經確認并清除的事件,將保存為已處理事件,供查詢和分析。

監控平臺記錄每個事件從產生到確認、清除的響應時間都能夠記錄、統計、查詢,可以作為監測人員崗位考核的指標依據。

管理員可以將最近的未處理事件列表加載到首頁Portal中重點關注;

2.2.5.4 事件的報警通知策略

事件應能夠通過聲音、郵件、短消息、微信、首頁提示等方式進行報警通知;

為避免重復信息的干擾,報警發送策略支持靈活配置,進行每次發送、只發送一次、最多發送N次的策略配置。

報警通知策略支持按事件分類發送到系統用戶/用戶組,也支持手工填寫系統帳號以外的郵件地址和手機號碼。

圖表:事件的通知方式

2.2.5.5 告警通知模板

監控系統提供默認的告警通知模板,也可以靈活的手動設置告警通知模板,完全自定義設定通知的具體信息,方便發送郵件或短信,直接選擇填寫的模板就可以。

選擇通知方式后,點擊詳細信息按鈕就查看到發送給用戶的模板內容,方便查看,如下圖:

圖表:告警通知模板設置

2.2.5.6 事件的分析和統計功能

運維監控系統提供趨勢曲線、未處理事件展現、已處理事件展現、事件報表、事件的郵件告警、事件的聲音告警、事件的短消息告警等幫助系統管理員進行實時查詢、分析和統計。對于分析的結果可以進行自定義時間的自動刷新,日志實時分析支持在內存中完成,提高反應速度。


更多解決方案,請點擊