首頁 >> 運營管理 >>運營管理 >>市場觀察 >> 中國電信錢兵:智能運維在當前發展是否順利
详细内容

中國電信錢兵:智能運維在當前發展是否順利

时间:2022-05-13     

 隨著數字化轉型不斷深化發展,企業組織迎來了應用程序數量持續增長、基礎架構云化改造、數據量爆炸性增長的變化,傳統運維管理方式已經無法滿足數字化時代的業務發展需求,在這個時候,智能運維就應運而生了。

那么,什么是智能運維?智能運維在當前發展是否稱得上順利?還存在什么問題?

《智能運維之道——基于AI技術的應用實踐》作者——中國電信研究院 AI 研發中心能力研發總監錢兵,和我們一起聊一聊智能運維的概念、現狀和趨勢。

問:什么是智能運維?和自動化運維之間是什么關系?

錢兵:簡單來說,智能運維就是在傳統IT運維的基礎上,通過AI和大數據技術實現運維工作的智能化,減少技術人員在運維過程中的參與度。自動化運維是通過軟件系統、專家規則等方法解決運維的自動化問題,提高運維效率;而智能運維是在自動化運維工具基礎上,引入了AI技術。

1652414743260985.png

:那么,智能運維需要哪些核心技術?目前在哪些領域有比較成功的落地案例?

錢兵:其實,目前智能運維處于發展中前期,主要使用的是已經經過反復驗證的成熟技術。如近年來迅速發展并成熟起來的大數據和AI技術,在智能運維領域都得到了廣泛的應用。具體用到的核心技術主要有:大數據采集、數據預處理技術,統計學、機器學習等技術,這些技術在智能運維領域都有很好的成功案例。

另外,智能運維領域非常重視知識的提取、應用、更新,這就用到了時下很受關注的自然語言處理和知識圖譜技術,與之相關的文本數據標注工具、文本相似性算法等一系列AI技術,也得到了非常普遍的應用。

應用場景方面,在我們電信網絡運營領域中,流量趨勢預測是一個很重要的應用場景。我在《智能運維之道——基于AI技術的應用實踐》一書中把其細分為短期、中期和長期的趨勢預測。短期流量預測的時間一般是秒級、分鐘級,可用于故障預警;中期流量預測一般是小時級、天級別,可應用于異常檢測;而長期流量預測主要應用于遠期的資源規劃,時間顆粒度一般都是季度、年為單位。這個流量趨勢預測就用到了ARIMA、向量自回歸、LSTM、Logistic、SVM等分類和時序預測算法。

問:智能運維在當前發展是否稱得上順利?還存在什么問題?

錢兵:這個問題非常好,只有長期在這個領域的人對這個問題才有深刻體會。大家對智能運維的看法基本是:前途是光明的,但道路是曲折的。

由于當前正處在IT運維向智能運維轉型的環節,因此宏觀上,企業的研發需要錢、人和時間的投入,這就讓很多小企業望而卻步,只有大企業才有這些條件優先實現智能運維轉型。而大企業并不會長期無條件的投入這三類資源,也會對產出有所期望,這就導致微觀上也存在一些問題。

微觀上,企業內有三類人在推動智能運維的發展:管理層、運維工程師、數據或算法工程師。由于他們三者所處的位置和職責不同,他們在智能運維研發過程中的收獲和體會存在很大差異,這就導致他們對此的態度是不完全一樣的。智能運維發展的挑戰在于:短期內一些場景看不到AI技術對運維的實際幫助,并且運維人員要在日常運維中,額外為智能運維研發付出時間和人力。

比如在智能問答的場景中,每個模型訓練和知識提取,都需要運維人員標注大量數據,標注完的數據需要反復清洗,清洗后的數據還需要再讓運維人員二次審核確認,最后訓練出來的模型準確率卻不盡如人意,需要反復優化,這個過程中別說有些管理者等不及,很多一線研發人員都可能失去信心。

因此,總體來看,當前智能運維是在曲折中前進,逐步從一個個單場景實現智能運維,最終實現全域智能運維。

問:一線運維人員和其他人員對智能運維的態度不一樣,那他們有擔心過自己會被智能運維替代或者淘汰嗎?

錢兵:這個問題對當前的運維人員來說,完全不用擔心,因為企業智能運維處于探索期,還不完全成熟。在智能運維研發和實現過程中,現在的運維人員會參與研發過程中,他們在技能上會逐漸轉型為復合型人才,他們是跟隨當前的技術往前在發展的人,不用擔心被淘汰。如果說對未來從事運維從業人員的影響,可能是智能運維對運維人員的需求量將逐漸減少,運維相關專業方向的年輕人面臨的就業壓力會更大,但他們是年輕人,可以在學校里就做好轉型準備,有更多的轉型機會。

問:智能運維和數字化轉型之間是什么關系?

錢兵:智能運維是一種全新的數字化運維能力,也將是企業數字化轉型的必備能力。當前數字化轉型走在前邊的企業,每天都有很多系統故障告警事件需要處理,而這類事件之間是有關聯的,這就可以通過智能運維中的故障傳播路徑圖建立圖譜進行分析,找出具有因果關聯的兩個或多個故障,并做出相關預警機制,從而幫助企業有效應對系統故障。

問:智能運維和東數西算之間是什么關系?

錢兵:隨著數字化轉型、5G甚至6G技術的快速發展,未來的數據資源和算力資源一定是基于分布式架構部署的!皷|數西算”是國家從宏觀層面對數據和算力資源的分布式戰略安排,與未來技術發展趨勢相匹配。各類系統產生的大量數據、AI模型所需要的算力,離不開智能運維的規劃與調度,智能運維對數據和算力起到的優化配置作用,剛好與“東數西算”這個戰略的目標相契合。

另外“東數西算”戰略也會帶來一些新的智能運維場景,比如國家對8個算力樞紐內規劃設立的10個數據中心集群,設定PUE標準,這是智能運維中典型的能效優化場景。事實上,只要跟數字化沾邊的,大到戰略規劃,小到一個具體的項目實施,甚至是一個信息系統的管理,都離不開運維和運維工程師。

來源:中國電信研究院

囗交50个动态图