信息系統(tǒng)自動化運(yùn)維平臺的研究與應(yīng)用
0 引言
隨著電力企業(yè)信息系統(tǒng)的不斷增加與完善,信息化工作重心由建設(shè)階段逐漸向運(yùn)行維護(hù)階段過渡,信息系統(tǒng)運(yùn)維與安全壓力日益顯現(xiàn)。但是,在傳統(tǒng)的運(yùn)維方式下信息系統(tǒng)運(yùn)維工作主要由人工完成,部分相關(guān)運(yùn)維工具由于功能分散、實(shí)用性低等問題,很難實(shí)現(xiàn)運(yùn)維自動化處理,對系統(tǒng)配置也不能達(dá)到及時(shí)、準(zhǔn)確、閉環(huán)的管理要求。尤其是對于信息系統(tǒng)客戶密集型的呼叫行業(yè),信息系統(tǒng)運(yùn)維工作面臨設(shè)備多、系統(tǒng)規(guī)模大、實(shí)時(shí)性要求高、主業(yè)運(yùn)維人員和運(yùn)維工具少等現(xiàn)實(shí)情況,需投入大量的人力進(jìn)行重復(fù)、繁雜的運(yùn)維工作。
針對以上問題,本文提出了從數(shù)據(jù)收集自動化、維護(hù)處置自動化、輔助決策自動化等方面開展自動化運(yùn)維的工作思路,以提升運(yùn)維工作的效率與服務(wù)質(zhì)量。
1 數(shù)據(jù)收集自動化
對于信息系統(tǒng)運(yùn)維而言,如何有效處理和運(yùn)用運(yùn)維數(shù)據(jù)已成為運(yùn)維工作的重要內(nèi)容。早期信息運(yùn)維綜合監(jiān)管系統(tǒng)(Information Management System, IMS)通過手工錄入的方式進(jìn)行數(shù)據(jù)的電子化管理,但隨著運(yùn)維工作的不斷發(fā)展,數(shù)據(jù)來源不斷增多,如手工填寫的紙質(zhì)數(shù)據(jù)、監(jiān)控系統(tǒng)自動采集的數(shù)據(jù)、分析統(tǒng)計(jì)數(shù)據(jù)等,使得要做好自動化運(yùn)維工作就必須要先做好運(yùn)維數(shù)據(jù)管理工作[1]。本文提出的數(shù)據(jù)收集自動化方案主要包括運(yùn)維監(jiān)控自動化、巡檢自動化及維護(hù)事件處理自動化。
1.1 功能架構(gòu)
1)運(yùn)維監(jiān)控自動化。充分利用已部署的動環(huán)監(jiān)控、BTIM、呼叫平臺預(yù)警監(jiān)控、運(yùn)維審計(jì)等輔助支撐系統(tǒng),對包括機(jī)房基礎(chǔ)環(huán)境、網(wǎng)絡(luò)安全設(shè)備、數(shù)據(jù)庫中間件、主機(jī)服務(wù)器、應(yīng)用服務(wù)等進(jìn)行全面監(jiān)控,重點(diǎn)實(shí)現(xiàn)監(jiān)控?cái)?shù)據(jù)存儲及預(yù)警機(jī)制集中存儲,利用安全接入平臺、隔離裝置實(shí)現(xiàn)不同網(wǎng)絡(luò)區(qū)域監(jiān)控?cái)?shù)據(jù)的互聯(lián)互通[2]。為實(shí)現(xiàn)運(yùn)維自動化,需對現(xiàn)有監(jiān)控系統(tǒng)的數(shù)據(jù)進(jìn)行集中存儲,建立安全的網(wǎng)絡(luò)互聯(lián)環(huán)境和統(tǒng)一預(yù)警機(jī)制,并實(shí)現(xiàn)對監(jiān)控?cái)?shù)據(jù)的二次利用和分析。
2)巡檢自動化?,F(xiàn)階段電力企業(yè)信息系統(tǒng)巡檢工作主要通過紙質(zhì)巡檢表單進(jìn)行日常及深度巡檢,且巡檢數(shù)據(jù)沒有得到有效分析和利用。針對這種情況,應(yīng)開展巡檢無紙化、移動化及數(shù)據(jù)電子化工作,通過移動終端實(shí)現(xiàn)巡檢,并對巡檢數(shù)據(jù)進(jìn)行電子化存儲,提高巡檢質(zhì)量,降低資源消耗,充分利用巡檢數(shù)據(jù)進(jìn)行分析,為故障預(yù)判做好數(shù)據(jù)積累。
3)維護(hù)事件提醒自動化。目前電力行業(yè)信息系統(tǒng)維護(hù)事件提醒主要利用各類監(jiān)控系統(tǒng)通過聲光報(bào)警的方式在各自系統(tǒng)頁面給出,值班人員確認(rèn)后短信通知相關(guān)人員。為降低人工勞動強(qiáng)度,應(yīng)建立統(tǒng)一管理平臺對維護(hù)事件進(jìn)行統(tǒng)一提醒,并以郵件、短信、電話等方式自動發(fā)送通知,減少人為干預(yù)。
1.2 關(guān)鍵技術(shù)
運(yùn)維數(shù)據(jù)處置包括數(shù)據(jù)采集、匯總、存儲等環(huán)節(jié),由于電力系統(tǒng)各單位運(yùn)維工作信息化水平不一,數(shù)據(jù)來源不同,因此運(yùn)維數(shù)據(jù)必須遵循多源獨(dú)立收集、格式統(tǒng)一整理、數(shù)據(jù)集中存儲的處置思路。數(shù)據(jù)處置結(jié)構(gòu)如
圖1 數(shù)據(jù)處置結(jié)構(gòu)Fig.1 Data disposal structure
數(shù)據(jù)采集的關(guān)注點(diǎn)是通過服務(wù)收集各類格式數(shù)據(jù),并進(jìn)行電子化存儲,因此針對不同的數(shù)據(jù)存儲場景應(yīng)采用可擴(kuò)展的、標(biāo)準(zhǔn)的數(shù)據(jù)收集組件,通過數(shù)據(jù)收集組件將各個監(jiān)控系統(tǒng)不同類型數(shù)據(jù)進(jìn)行統(tǒng)一匯總,采用以下思路進(jìn)行數(shù)據(jù)收集自動化建設(shè)工作。
通過商業(yè)軟件和定制開發(fā)的方式對運(yùn)維范圍內(nèi)信息系統(tǒng)進(jìn)行監(jiān)控,各監(jiān)控系統(tǒng)均有一套數(shù)據(jù)存儲系統(tǒng)[3]。為實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一存儲和綜合利用,需具備一套數(shù)據(jù)收集組件進(jìn)行存儲數(shù)據(jù)的格式轉(zhuǎn)換、抽取,同時(shí)該組件支持抽取規(guī)則定制,可對抽取數(shù)據(jù)的數(shù)據(jù)量、數(shù)據(jù)種類、轉(zhuǎn)換格式、源端、目標(biāo)端進(jìn)行復(fù)制。數(shù)據(jù)收集組件如
圖2 數(shù)據(jù)收集組件Fig.2 Data collection component
由于存在監(jiān)控系統(tǒng)未完全覆蓋所有應(yīng)用、服務(wù)和設(shè)備的情況,應(yīng)提供數(shù)據(jù)采集Agent對專用設(shè)備和服務(wù)進(jìn)行監(jiān)控及數(shù)據(jù)采集,提供移動巡檢應(yīng)用,實(shí)現(xiàn)巡檢工作的無紙化和移動化,利用現(xiàn)有安全接入平臺進(jìn)行移動終端接入,確保應(yīng)用安全可靠。
在運(yùn)維數(shù)據(jù)全采集后,形成的數(shù)據(jù)將會是海量數(shù)據(jù),數(shù)據(jù)庫必須具備高可擴(kuò)展性、高并發(fā)性、高可用性等特點(diǎn),傳統(tǒng)數(shù)據(jù)庫存在性能瓶頸,不能有效支撐對運(yùn)維數(shù)據(jù)的集中分析和運(yùn)算,因此需采用分布式數(shù)據(jù)庫[4]。分布式模式如
圖3 分布式模式Fig.3 Distributed mode
運(yùn)維事件提醒主要是告警提醒,以聲光、郵件、短信、電話等方式自動發(fā)送,減少人為干預(yù)。部分系統(tǒng)自帶通知功能,但存在誤報(bào)情況,且發(fā)送內(nèi)容不能集中管理,需通過人工編制發(fā)送短信。因此,本文通過開發(fā)運(yùn)維事件處理集中提醒處置功能,可對告警事件進(jìn)行集中管理,創(chuàng)建標(biāo)準(zhǔn)事件庫,實(shí)現(xiàn)通知內(nèi)容的自動生成功能[5]。集中處置流程如
圖4 集中處置流程Fig.4 Centralized disposal process
2 維護(hù)處置自動化
維護(hù)處置自動化主要包括現(xiàn)場事件處置自動化、配置變更自動化監(jiān)測和故障診斷自動化,可以節(jié)省大量人力成本。
2.1 現(xiàn)場事件處置自動化
現(xiàn)有系統(tǒng)多采用B/S結(jié)構(gòu),缺少靈活、強(qiáng)大的自動信息采集策略,不能適應(yīng)新技術(shù)發(fā)展的需求,且與大部分應(yīng)用系統(tǒng)存在沖突,運(yùn)行維護(hù)容易導(dǎo)致服務(wù)中斷,影響服務(wù)的持續(xù)開展;缺少可視化運(yùn)維支撐手段,不利于服務(wù)受理人員第一時(shí)間分析處理問題;通過電話溝通事件情況,導(dǎo)致溝通成本高,不能滿足對實(shí)時(shí)性的要求。目前,通過桌面異常上報(bào)工具進(jìn)行問題的收集及處理,可有效推動桌面異常處置的效率和水平,但存在對桌面工程師個人能力水平依賴性較高的問題。針對以上情況,建立現(xiàn)場異常處置知識庫并與現(xiàn)有工具及應(yīng)用進(jìn)行有效結(jié)合,通過知識庫自動關(guān)聯(lián)給出問題的解決方案,可減少對人員素質(zhì)的過度依賴,解決系統(tǒng)處置標(biāo)準(zhǔn)不一致的問題[6]。現(xiàn)場事件自動化處置過程如
圖5 現(xiàn)場事件自動化處置過程Fig.5 The automatic process of on-site event
現(xiàn)場事件處置自動化充分體現(xiàn)了現(xiàn)場運(yùn)維工作的建設(shè)思路,主要涉及座席端、運(yùn)維端及數(shù)據(jù)服務(wù)3個部分?,F(xiàn)場處置模塊劃分如
圖6 現(xiàn)場處置模塊劃分Fig.6 On-site disposal module division
現(xiàn)場處置模塊涉及的主要功能如下。
1)座席端的設(shè)計(jì)充分考慮了異常事件特點(diǎn),可自動完成軟電話日志、系統(tǒng)日志、網(wǎng)絡(luò)配置等基礎(chǔ)環(huán)境信息收集,并進(jìn)行自適應(yīng)截屏,將座席人員人工工作量減少到最小。
2)在上傳異常事件后,可在數(shù)據(jù)服務(wù)端自動關(guān)聯(lián)展示座席人員組織、空間、業(yè)務(wù)關(guān)系等信息,自動分析歷史事件,提高了運(yùn)維人員信息收集的效率。
3)運(yùn)維人員通過運(yùn)維端可多維度查詢異常事件,快速瀏覽截圖、日志等信息,為準(zhǔn)確定位問題、快速恢復(fù)服務(wù)提供有力支撐。
2.2 配置變更自動化監(jiān)測
目前電網(wǎng)企業(yè)信息系統(tǒng)運(yùn)維配置管理工作主要通過文檔進(jìn)行臺賬及配置信息管理,配置管理需要過多的人工干預(yù),無法達(dá)到及時(shí)、準(zhǔn)確及閉環(huán)的管理要求[7]。針對這種情況,可建立配置庫管理應(yīng)用,與涉及變更的檢修、上下線等運(yùn)維流程進(jìn)行關(guān)聯(lián),同時(shí)通過代理應(yīng)用實(shí)現(xiàn)對各類配置對象的實(shí)時(shí)監(jiān)測機(jī)制,自動對配置庫的變化進(jìn)行監(jiān)控、記錄與管理。
要實(shí)現(xiàn)配置管理自動化,必須建立配置管理數(shù)據(jù)庫(Configuration Management Database,CMDB),配置管理的粒度越細(xì),管理難度越大[8]。要達(dá)到配置管理自動化的目標(biāo),就需建立配置管理模型,即配置管理包括哪些配置項(xiàng)及配置項(xiàng)之間的關(guān)系。配置項(xiàng)應(yīng)包括:聯(lián)系人、機(jī)房、機(jī)柜、電源、存儲、主機(jī)、操作系統(tǒng)、授權(quán)、個人電腦、打印機(jī)、網(wǎng)絡(luò)接口、網(wǎng)絡(luò)設(shè)備、安全設(shè)備等。要做到配置管理自動化,首先要自動偵測IP地址范圍內(nèi)哪些IP需要激活,定義設(shè)備類型及依賴關(guān)系和影響范圍;配置連接權(quán)限、連接協(xié)議和關(guān)鍵配置信息,實(shí)現(xiàn)關(guān)鍵配置(如文件、參數(shù)、程序版本)[9]定義掃描規(guī)則,定期掃描配置信息,對變更配置自動生成待處理任務(wù),并進(jìn)行確認(rèn)處理;同時(shí)應(yīng)支持圖形可視化影響范圍和依賴關(guān)系展示,通過查詢歷史版本,實(shí)現(xiàn)差異對比分析。
2.3 故障診斷自動化
目前大部分企業(yè)在故障診斷自動化方面無應(yīng)用系統(tǒng)支撐,為實(shí)現(xiàn)故障診斷自動、及時(shí)、準(zhǔn)確的目標(biāo),通過建立一套診斷處置策略,診斷代理自動分布式地收集日志信息,利用診斷策略對收集的信息進(jìn)行集中分析,自動給出故障診斷情況及處置方式[9]。
故障診斷一般依賴于日志信息,一般通過日志可直觀判斷異常發(fā)生的原因。因此要實(shí)現(xiàn)故障診斷,首先要實(shí)現(xiàn)設(shè)備關(guān)鍵日志的收集、分析和存儲,并通過異常代碼自動關(guān)聯(lián)處置方案,利用Agent執(zhí)行處置腳本,實(shí)現(xiàn)異常的自動處置和診斷[10]。
3 輔助決策自動化
通過人工效能分析、運(yùn)行健康分析、運(yùn)行方式分析等方式進(jìn)行輔助決策支撐,可改善目前需投入大量人力進(jìn)行運(yùn)行日報(bào)、周報(bào)、月報(bào)及異常分析報(bào)告等運(yùn)維分析工作的現(xiàn)狀。通過建立一套報(bào)告定制系統(tǒng),可定制規(guī)則,與各監(jiān)控系統(tǒng)進(jìn)行整合,自動關(guān)聯(lián)運(yùn)維數(shù)據(jù),自動生成相關(guān)運(yùn)行報(bào)告,最終實(shí)現(xiàn)提高報(bào)告質(zhì)量的目標(biāo)[11-12]。
輔助決策自動化功能在運(yùn)維數(shù)據(jù)集中管理和配置數(shù)據(jù)正確、完

責(zé)任編輯:售電衡衡
- 相關(guān)閱讀
- 泛在電力物聯(lián)網(wǎng)
- 電動汽車
- 儲能技術(shù)
- 智能電網(wǎng)
- 電力通信
- 電力軟件
- 高壓技術(shù)
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵“光儲充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設(shè)將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設(shè)下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設(shè)典型實(shí)踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進(jìn)這個行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎(chǔ)設(shè)施,電力新基建 -
燃料電池汽車駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵“光儲充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市