中石油郵件系統(tǒng)管理實踐
- 來源:計算機世界 smarty:if $article.tag?>
- 關(guān)鍵字: smarty:/if?>
- 發(fā)布時間:2009-09-21 13:57
業(yè)務(wù)服務(wù)管理(Business Service Management,BSM)已逐漸成為IT管理領(lǐng)域的一個新的熱點。業(yè)務(wù)服務(wù)管理彌補了傳統(tǒng)IT管理理念缺乏對業(yè)務(wù)和IT關(guān)聯(lián)關(guān)系問題的思考,明確提出了保持業(yè)務(wù)目標(biāo)和IT目標(biāo)相統(tǒng)一,構(gòu)建業(yè)務(wù)和IT的溝通平臺,通過業(yè)務(wù)視角傳遞IT價值的觀點。
下面以中國石油郵件運維平臺為例,介紹其業(yè)務(wù)服務(wù)管理的實踐過程。
五大著眼點
業(yè)務(wù)服務(wù)管理致力于為企業(yè)解決以下五個方面的問題。
第一,管理信息共享。
出于對IT資源專業(yè)化、精細化管理的要求,企業(yè)部署了諸多的監(jiān)控管理工具,用于監(jiān)控企業(yè)內(nèi)部IT環(huán)境的各個方面。一般來說,這些監(jiān)控工具往往來自于不同的廠商,彼此之間缺乏信息共享的手段。而管理信息無法共享,直接帶來以下問題。首先,IT管理人員在發(fā)現(xiàn)和解決IT故障的時候,不得不同時使用多個管理操作臺(Console);其次,加大了IT故障的分析難度,降低了解決問題的效率。業(yè)務(wù)服務(wù)管理可以有效整合企業(yè)已經(jīng)構(gòu)建的眾多IT監(jiān)控系統(tǒng),將分散的IT管理信息集中到一個單點的管理平臺中,從而信息得以充分共享。
第二,根源問題的定位。
目前,企業(yè)的IT環(huán)境越來越復(fù)雜。當(dāng)一個IT組件出現(xiàn)問題時,往往會影響到很多關(guān)聯(lián)的組件,因此管理員會收到大量的衍生或者重復(fù)的告警信息。如何在在最短的時間內(nèi),從大量的告警信息中,準(zhǔn)確定位出故障的根本原因,成為IT管理的關(guān)鍵。業(yè)務(wù)服務(wù)管理能夠提供有效的根源問題定位能力,它著眼于企業(yè)的核心業(yè)務(wù)系統(tǒng),通過集中與業(yè)務(wù)相關(guān)的IT信息,根據(jù)業(yè)務(wù)邏輯和IT組件之間的關(guān)聯(lián)關(guān)系進行建模,企業(yè)可以在業(yè)務(wù)模型中的任何一點進行快速的根源問題分析和定位,大大提高了解決問題的速度和準(zhǔn)確度。
第三,故障影響范圍評估。
當(dāng)發(fā)現(xiàn)IT故障時,管理員不僅應(yīng)該關(guān)注故障本身,更應(yīng)該考慮該故障對業(yè)務(wù)系統(tǒng)的影響。比如同時收到了兩條Critical的告警信息,一條描述某個郵件服務(wù)器宕機,另一條描述某個交換機的CPU利用率過高,此時應(yīng)該首先處理那個故障?從技術(shù)角度來講都是非常嚴重的問題,但從對業(yè)務(wù)的影響范圍和程度看,顯然要優(yōu)先處理服務(wù)器宕機的告警,因為這條告警對業(yè)務(wù)的影響范圍更大;但是如果該宕掉的郵件服務(wù)器只是某個服務(wù)器集群中的一個呢?顯然更應(yīng)該優(yōu)先處理CPU利用率高的交換機。業(yè)務(wù)服務(wù)管理通過幫助IT管理者構(gòu)建業(yè)務(wù)場景,將具體的IT故障放入相關(guān)的業(yè)務(wù)場景中進行評估,讓管理員了解到IT故障的影響范圍和程度。
第四,業(yè)務(wù)服務(wù)水平評量。
當(dāng)前,對于IT組件的服務(wù)水平管理已經(jīng)非常普遍,比如對于網(wǎng)絡(luò)鏈路,可以通過建立鏈路通斷、流量超限的服務(wù)水平協(xié)議來評量網(wǎng)絡(luò)服務(wù)是否達標(biāo)、是否優(yōu)質(zhì)。業(yè)務(wù)服務(wù)管理將服務(wù)水平評量從IT層面提升到業(yè)務(wù)層面,基于構(gòu)建的業(yè)務(wù)模型,可以按照關(guān)鍵業(yè)務(wù)指標(biāo)(KPI)建立一套全面的業(yè)務(wù)服務(wù)評價體系,該體系更為準(zhǔn)確和全面的反映IT的運行效果。
第五,基于角色的信息呈現(xiàn)。
IT信息已經(jīng)成為企業(yè)內(nèi)部一項重要的信息內(nèi)容。因此如何展現(xiàn)IT信息和IT運維的結(jié)果,使之能夠被管理層這些非IT專業(yè)人士正確解讀,建立IT和業(yè)務(wù)部門的溝通平臺,成為IT部門的一項挑戰(zhàn);此外,IT運維團隊也是由多個層次、多個專業(yè)領(lǐng)域、多種角色的人員構(gòu)成的,因此需要能夠基于角色來更為直觀地、簡練地展現(xiàn)信息。業(yè)務(wù)服務(wù)管理提供的可定制化的極具特色的業(yè)務(wù)服務(wù)視圖,可以幫助實現(xiàn)上述目的。
三步逐級實施
中國石油郵件系統(tǒng)現(xiàn)已成為中國石油應(yīng)用最普遍、覆蓋面最廣、最為重要的應(yīng)用系統(tǒng),同時也是世界上最大的企業(yè)級的電子郵件平臺之一。除基本郵件收發(fā)功能外,它還肩負著為各應(yīng)用系統(tǒng)提供統(tǒng)一身份認證的重任。目前,郵件系統(tǒng)的PC主機共有200個,注冊用戶50萬個,年收發(fā)郵件三千多萬封。
為了保證郵件系統(tǒng)的持續(xù)穩(wěn)定高效,中國石油部署了郵件監(jiān)控系統(tǒng),實現(xiàn)了對郵件服務(wù)器、郵件應(yīng)用進程等的監(jiān)控;部署了專業(yè)的網(wǎng)管系統(tǒng),實現(xiàn)了對企業(yè)網(wǎng)絡(luò)的監(jiān)控;部署了應(yīng)用協(xié)議監(jiān)控系統(tǒng),實現(xiàn)了對關(guān)鍵應(yīng)用協(xié)議,如SMTP、POP3、HTTP等的監(jiān)控。眾多IT監(jiān)控系統(tǒng)的部署,實現(xiàn)了對郵件系統(tǒng)的專業(yè)化、精細化管理,但是本文開始提出的五個問題,中國石油依然不得不面對,為了解決上述問題,中國石油按照以下的過程進行了基于業(yè)務(wù)服務(wù)管理的郵件系統(tǒng)運維平臺的建設(shè)。
第一步,對郵件系統(tǒng)相關(guān)的IT信息進行整合。采用Novell提供數(shù)據(jù)集成技術(shù),從已經(jīng)部署的眾多IT監(jiān)控工具中捕獲IT信息,并集中到業(yè)務(wù)服務(wù)管理平臺。被集成的系統(tǒng)包括:上市和未上市的兩套郵件監(jiān)控系統(tǒng)、網(wǎng)管系統(tǒng)、協(xié)議監(jiān)控系統(tǒng)。被集中的數(shù)據(jù)包括:郵件服務(wù)器、應(yīng)用進程的實時狀態(tài)信息和實時告警信息;網(wǎng)絡(luò)設(shè)備的實時狀態(tài)和實時告警信息;關(guān)鍵協(xié)議的實時狀態(tài);網(wǎng)絡(luò)鏈路、郵件服務(wù)器、應(yīng)用進程的性能數(shù)據(jù)。
第二步,在數(shù)據(jù)集中的技術(shù)上,進行業(yè)務(wù)建模。
首先,從郵件系統(tǒng)入手,理清了郵件系統(tǒng)本身各個組件的結(jié)構(gòu)、作用,以及各組件間的關(guān)聯(lián)關(guān)系,這些組件包括BE、DC、FE、Cluster、Mail;從網(wǎng)絡(luò)入手,理清了郵件服務(wù)器與網(wǎng)絡(luò)設(shè)備之間的連接情況,關(guān)鍵網(wǎng)絡(luò)設(shè)備的作用;從管理入手,理清了郵件系統(tǒng)的組織結(jié)構(gòu)和管理區(qū)域及權(quán)限。
其次根據(jù)掌握的信息進行建模。建模包括兩個方面,一是形成組件間的關(guān)聯(lián);二是在關(guān)鍵組件上部署邏輯算法。邏輯算法也是根據(jù)業(yè)務(wù)邏輯和IT管理規(guī)則制定的。邏輯算法的應(yīng)用,極大的提高了根源問題定位的效率和準(zhǔn)確性。以西南區(qū)域郵件系統(tǒng)為例,影響西南郵件的因素有三類:服務(wù)器,郵件應(yīng)用協(xié)議,關(guān)鍵鏈路。通常,當(dāng)連接某臺服務(wù)器的關(guān)鍵鏈路中斷時,相應(yīng)的服務(wù)器及其上的協(xié)議也會顯示異常狀態(tài)。我們會看到大量告警節(jié)點和信息,無法判斷故障的根本原因。通過在關(guān)鍵點上設(shè)置邏輯算法,當(dāng)發(fā)生上述異常時,只讓發(fā)生故障的關(guān)鍵鏈路節(jié)點變紅,而讓受之影響的服務(wù)器和協(xié)議節(jié)點出于靜默狀態(tài)(灰色顯示),從而使IT管理人員能夠直觀快速的判斷出故障的根源所在(如圖1)。
圖1:設(shè)置邏輯算法之后的業(yè)務(wù)模型
第三步,在模型的基礎(chǔ)上,根據(jù)用戶的角色,定義直觀清晰的業(yè)務(wù)視圖(如圖2所示)。
圖2:郵件系統(tǒng)業(yè)務(wù)視圖
基于業(yè)務(wù)服務(wù)管理的郵件系統(tǒng)運維平臺的成功構(gòu)建,帶來了如下的好處:首先,將原來分散在四套IT監(jiān)控管理系統(tǒng)中信息集中在一起,提高了信息分析能力,降低了IT人員的工作負荷。其次,在郵件業(yè)務(wù)模型中的任何節(jié)點,均可進行根源問題分析和定位,提高了故障解決速度,也避免各系統(tǒng)之間的推委。第三,將具體的IT問題放到業(yè)務(wù)場景中進行評量,使IT人員能夠更為準(zhǔn)確地在第一時間解決對企業(yè)業(yè)務(wù)最重要、最緊迫的IT問題。第四,通過建立多種業(yè)務(wù)監(jiān)控視圖,使監(jiān)控更為清晰和直觀,同時企業(yè)內(nèi)的非IT人員也能夠了解IT信息。
鏈接:業(yè)務(wù)服務(wù)管理的兩個關(guān)鍵點
信息整合和業(yè)務(wù)建模是實踐業(yè)務(wù)服務(wù)管理的兩個關(guān)鍵點,同時也是兩個難點。
信息整合具有如此重要的地位,是因為信息的完整性和實時性,以及信息集成的效率會影響到最終構(gòu)建的業(yè)務(wù)模型是否有效,進而決定IT運維的效率和效果。
業(yè)務(wù)模型意義重大,通過業(yè)務(wù)模型,可以準(zhǔn)確評估任何一個IT 組件的故障影響范圍以及對相關(guān)業(yè)務(wù)的影響程度;可以快速準(zhǔn)確定位故障根源;還可以以板塊為視角、以項目為視角、以應(yīng)用為視角、以基礎(chǔ)設(shè)施為視角、以不同層次的管理者為視角快速建立多維度、多層次的監(jiān)控視圖。
業(yè)務(wù)模型的完善也是一個循序漸進的過程,不要指望模型能夠一次性完美建立。
