作者簡介:1998年畢業于大連理工大學,化工機械碩士,擅長網絡開發,精通各種網絡協議,專心研發SiteView綜合網管系統。2000年至今,先后完成聯通3次WAP網管項目、海南航空全網網管項目、移動夢網全國網絡治理系統等上百個IT運維治理項目。
導語:由于電信行業的非凡性,要求更全面、更穩定、更先進的網絡運維系統才能夠確保各種應用系統的正常運行。
小李在江西一家電信運營商工作,他天天的工作任務是對電信核心業務的網絡運行狀態進行監測,在天天的工作中,誤報問題是在網絡監測過程中最讓他頭疼的事情。一直以來,對于核心業務的監測,都是通過采用程序腳本的方式進行,治理起來很麻煩。
小程序的大麻煩
根據業務的發展需要,這家電信運營商的IT部門會對業務內容直接撰寫程序腳本,這些程序腳本包括對業務系統的監測、判定條件、報警等。它們被集中放在主服務器上,監控網絡的運行狀態。每新增一項新業務,都需要IT部門寫一個新的程序腳本,對新業務的運行狀態進行監控。
網絡運維工程師在工作中普遍存在一個難題。程序腳本的主要作用是對業務進行監控,比如出現網絡負載的狀況,程序腳本就在這個時候發揮作用,但是每個程序腳本都是相對獨立的,一個主服務器上可能同時運行幾千個腳本,缺乏整體治理,而且程序腳本之間會產生沖突,當業務進行更改,程序腳本也要隨之更改。
小李最初也嘗試了很多不同的方法,試圖解決這種問題,但是始終治標不治本,根本無法對復雜錯綜的程序腳本進行統一治理和維護。電信行業天天都會有新的業務產生,隨著業務的不斷增加,腳本也隨之不斷增加,腳本的疊加重合現象使得誤報現象越來越嚴重,給網絡治理帶來了很大的負擔。
2006年年初,隨著業務體系建設越來越全面,單位的領導也熟悉到了這方面的問題,單一的網絡系統已經不能滿足他們的需要,只有平臺化的運維系統,全面統一的進行監管,才能滿足對于業務系統和應用系統的運維需求,為業務層的提供支撐。
由于電信行業的非凡性,要求更全面、更穩定、更先進的網絡運維系統才能夠確保各種應用系統的正常運行。這個概念確定后,小李開始不斷地和網管類廠商接觸,也接觸了很多網絡運維治理系統。在眾多廠商中,游龍科技項目組專門針對小李的所在單位的業務狀況,開發了一套免費的工具,應用于治理那些“麻煩”的程序腳本,作為前期的系統測試。
數據采集“兩級化”
隨著新業務不斷擴充,導致數據量增長過猛,網絡中經常出現負載狀況,而且數據傳輸不夠穩定。小李解釋說:“面對這種情況,我們需要選擇集中非代理式監測方式,因為這種方式不需要在被監測對象上安裝任何代理軟件,對被監測對象的性能影響甚微,系統的維護和升級都十分方便。”
“而且還要克服B/S應用系統的界面操作以及傳輸性能低的缺點,采用增量傳輸和局部刷新的技術,最高限度的降低應用程序的網絡傳輸壓力,達到我們滿足的響應速度,輕松實現對多種操作平臺的網絡環境進行統一集中治理。”小李還補充說道。這種監測方式對被監測服務器的性能幾乎沒有任何影響,也可以避免使用代理軟件而引起的一系列潛在安全問題。
經過多方面的考慮取舍,部署SiteView ECC之后,小李只需要通過一臺監測主機,就可以同時監測到幾臺到幾百臺服務器。可全面監測服務器的各種資源,包括CPU、內存、服務進程、文件和磁盤分區等。
對于電信級的網絡來說,通過安裝全網分布式網管系統,治理人員通過總部或治理中心的虛擬網管系統不僅可以馬上了解各省網絡的運行狀況,而且可以定時接收各省提交的報告統計。系統定期就會通過郵件以圖表的形式發布給相關的治理者。
報表內容包括服務器的各種性能指標、網絡設備的各種運行指標、故障發生的時間、故障處理的時間和處理方式、網管人員的響應時間、各種性能數據統計分析等。同時,對于警報設置和報表統計,總部和各級網絡治理人員都可以自定義設置,得到不同的數據信息。“兩級數據同步采集”也是一種新一代的數據采集技術。
監控治理 可靠第一
小李對網絡運維的安全性和可靠性也十分重視,在選型的過程中,特意挑選能夠擁有雙機熱備份解決方案的產品,用于實時備份系統數據和配置信息,確保系統長期、穩定、高效運行。他說:“若裝有網管軟件的機器出現問題,系統出現故障就無法迅速查尋、定位,這將會給我們的正常運營造成很大的影響。”
他利用一臺備份監測主機對SiteView ECC監測主機進行實時掃描,一旦發現故障,就可以通過遠程操作重啟SiteView ECC監測主機,同時啟動自身的SiteView ECC備份系統,從而保障企業信息平臺7×24高效、穩定地運行。
從年初到現在,通過半年多的測試,系統運行狀況良好,而且將程序腳本和零散的系統進行了有效的集中治理和監控。而且通過SiteView ECC方案,僅用了三天就完成了全部部署,提高了對業務網絡監測的安全性,減低了治理復雜度。
在對業務進行監測的治理過程中,短信告警、業務實施報警等方式為小李的單位提供了很大的便利,通過這些告警實現手段,小李和他的同事可以在很多地方通過撥號等手段遠程控制,及時的解決問題。
小李后來評價說:“SiteView ECC通過分布式的網絡架構,可以面向網絡中的各種應用,內置擁有100多種監測器。監測對象從網絡設備到服務器資源,從數據庫性能到企業商務應用,并可根據我們的需求定制專門的監測器。真正實現了對網絡基礎架構及其應用的全面深度監測,為我們提供了真正業務應用層次的服務水平保證。”
新聞熱點
疑難解答