IT運維(IT Ops)人員在組織中扮演著三個關鍵性角色。
他們可以是建筑師、建設者以及出現問題時挽救大局的英雄。他們設想和幫助規劃數字環境,建立這些環境運行的基礎設施,并在問題變為危機之前(和之后)解決這些問題。 今天,我想把重點放在IT運維工作的突破性/固性上,特別是預防IT網絡危機并在發生危機時應對它們的一些瑣碎的事情。基于過去15年處理IT運維變更的經驗,個人覺得IT專業人員需要注意以下重要事項,以避免網絡危機,或是在危機已經到來時解決危機。 什么發生了變化? 很多的(甚至是大部分的)危機是由于環境的變化而產生的。在診斷問題時,了解一下最近發生的其他環境變化也許會對你有所幫助。如果你不能找到很明顯的直接原因,請花點時間來詢問: 最近發生的可能導致該問題的原因是什么?這在解決遠程問題時特別有用,因為你不可能看到發生的所有事情。
例如,如果服務器停止響應,首先要檢查服務器,確保服務器沒有掛起或宕機,硬盤空間足夠并已連接到網絡等。如果你無法在服務器本身找到原因,那么是時候擴大搜索范圍并查看其他在近期發生的變化了。
在故障期間,網絡連接往往會揭露自身問題。檢查你的項目管理系統或更改日志,以查看網絡上最近發生了哪些變化。可能是由于配置在錯誤的路由器、交換機或防火墻后面,導致你無法訪問服務器。也可能是有人意外地刪除了服務器的DNS記錄或更改了路由路徑。問題可能發生在其他地方,你看到的只是癥狀,而不是導致問題發生的根源。
有計劃地避免附帶損害
當你在一個地方進行變更時,卻在另一個地方發生了意想不到的問題,沒有比這更令人沮喪的了。一個附帶損害的例子可能是置換出一臺服務器,結果卻發現它敲出了一個夜間傳輸,因為傳輸的安全性和機器的硬件認證相關聯,改變硬件就改變了硬件鍵。避免附帶損害的關鍵是在作出變更之前做好功課并盡可能多地確定相關功能。深入了解并識別任一相關功能,并對你的計劃作出必要調整。
列一個變更清單
IT 運維人員經常會使用記憶、培訓和直覺來進行關鍵性的工作。當他們不按順序執行或是跳過某些步驟執行時往往會出現問題。在進行網絡變更時使用清單,以確保成功并能避免危機。一個好的清單可以幫助你在變更過程中計劃并正確實施這些步驟。
預備步驟 - 在作出更改之前需要做些什么?哪些服務器或設備需要被down或調整?需要通知誰?
進程中的步驟 - 在更改過程中必須執行哪些步驟?需要修改哪些配置?
驗證變更是否奏效 - 您如何確定變更是否奏效。你應該檢查哪些項目?應使用哪些數據來進行驗證?
應急程序 - 如果形勢轉壞,應該使用什么策略來緩解?你的應急策略是什么?
恢復步驟 -如何才能撤銷為實施更改所做的預備步驟?(這一步必須得到重視,因為它往往可以避免引發另一個危機。)
清單不一定要很長,但是要深入、準確和適用。個人覺得,使用清單是網絡變更成功的關鍵。如果你對此有興趣,可以查看我之前寫的文章《IT項目實施時使用清單的8個理由》。
“一次只做好一件事”原則
一次只做一項主要的網絡更改。如果只做一處變更,那么即便出現問題,你也只面臨一個危機。如果兩個或兩個以上的變更同時出問題,那就是另外一回事了,就造成了多重危機。一次執行數個更改,卻只有一部分網絡down掉,這聽起來很誘人,但是請不要這么做。這種冒險行為并不值得。
要清楚你所處的位置
位置感知(position awareness) - 當IT人員誤以為自己是在測試系統上工作,然后抹去了一個生產系統,這絕對是最可怕的自我傷害。一個最好的例子就是IT經理在刷新QA數據庫的時候,意外地清空了生產數據庫,因為他在錯誤的機器上。通常在使用遠程桌面程序時會出現這些錯誤,因為你可能在無意中連接到了錯誤的機器。在工作開始之前,一定要確保你在正確的機器上,即便只是執行一個hostname命令那么簡單。在它首次制止你連接到錯誤的機器上的時候,你會感激你自己。
上述都是ServiceHot在實踐中得出的一些在變更管理指南中并未提及或僅是簡單提及的實用性步驟。這些步驟很簡單,但是可以幫助你應對意外的IT運維危機或是防止產生危機。
ServiceHot介紹
永服科技有限公司(簡稱“ServiceHot”或“永服科技”),是中國優秀的 IT服務管理解決方案服務商和產品廠商,注冊資金5000萬,總部坐落于江蘇無錫,在北京、上海、廣州、成都等多地設立了分支機構。
ServiceHot擁有優秀的ITSM產品和多年IT服務管理項目的實施經驗,運用ITIL、ISO20000等最佳實踐方法,為客戶提供ITIL咨詢服務、ITSM產品、定制化開發服務、落地實施服務、ITIL/ITSS認證,為企業信息化建設,安全、可靠、高效地運行提供有力的保障。三大核心產品分別是ServiceHot ITSM(IT服務管理平臺)、ServiceHot ITSOM(IT服務運營管理平臺)和ServiceHot SOM(服務運營管理)。產品基于J2EE搭建的架構平臺、可以適應云計算部署環境,具有較好的易用性、擴展性以及配置功能,適用于企業目前IT服務過程不斷改進、提升,業務邏輯及流程復雜等環境的要求,產品在大型的國企、制造業、金融等多行業完成了實際的應用和推廣。
ServiceHot是中國電子工業標準化ITSS副組長單位,參與國家IT服務標準的編制和評審。榮獲2018 “中國IT服務十大優秀產品”(ITSM類)、2017-2018年度中國SAAS產業最佳IT服務類SAAS服務商。案例包括:XX省農信、國信證券、鄭州商品交易所、深圳證券信息、長虹集團、中航西飛、一汽啟明、中國移動、云天化集團、天原集團、華為、蘋果等。
ServiceHot一直秉承“讓您掌控IT運營服務的每一個瞬間”理念,以客戶為中心技術為驅動,持續專研從ITSM到ITSOM再到SOM的升級和創新方案,讓企業級IT服務管理擁有“智能、協同、移動、社交”的體驗。