匯付天下NOC指揮中心全新落成,將為客戶提供更穩(wěn)定可靠的服務
近日,匯付天下全新規(guī)劃與設計的NOC指揮中心在公司總部大樓圓滿落成!NOC即“Network Operations Center網絡運營中心”,在匯付已成立一年半有余。它肩負著為匯付的所有客戶提供交易、賬戶、資金系統(tǒng)穩(wěn)定保障的責任,圍繞“一切以客戶為中心”的企業(yè)文化理念,以數字化工具和手段來實現對系統(tǒng)的監(jiān)控、運維和技術保障。
此次全新落成的NOC指揮中心,在原有實用主義的基礎上,充分挖掘了空間功能和價值,并兼具了美觀度,整體以金屬風格為主,選取了“數字方舟”作為設計的靈感來源,最終形成一個純粹的數字空間。監(jiān)控室整體分為三塊區(qū)域,后方抬高的監(jiān)控和指揮官席位構成駕駛艙,中間工作區(qū)域常駐運維專家,還有靈活的辦公組成席位,可以在出現問題時臨時有二線專家參與。指揮席位和工作席位形成三角形的布局,也寓意系統(tǒng)的穩(wěn)定。NOC指揮中心建立了一套數字化的監(jiān)控保障平臺,以實現運行和運維數據的可觀測。主屏幕主要展示匯付支付相關的核心模塊功能,如核心架構產品、網絡流量、安全防護,交易穩(wěn)定性、核心產品交易成功率等數據,可以實時監(jiān)測核心產品的波動情況。副屏幕主要展現的是與變更、告警相關的內容,用來輔助工程師對異常的提醒、判斷和決策。充分利用各類監(jiān)控工具,結合AIOPS理念指導,將各IAAS層和PAAS層的各類指標數字化、可視化,智能發(fā)現、定位異常。NOC工作人員以大屏和告警為主,配合自身的小屏幕實現多屏聯動,協(xié)同平臺實現數字化運維,來整體實現NOC指揮中心的目標:為客戶提供穩(wěn)定可靠的服務。
隨著公司業(yè)務類型的不斷豐富,系統(tǒng)越來越復雜,業(yè)務故障難免發(fā)生。一旦發(fā)生故障,勢必對公司產生巨大影響,因此,提升對故障的定位能力、處理能力及恢復能力,成為生產工作中最核心的目標。隨著公司業(yè)務進入數字化轉型升級之中,同步完成數字化安全生產體系的建設,也顯得尤為重要。
匯付的NOC指揮中心主要負責全局性應急決策與指揮,對各業(yè)務提供及時準確的告警、生產故障的全生命周期管理、重大故障時的快速切換以及線上問題的升級支持,以有效縮短系統(tǒng)故障時長和提升用戶體驗。具體來說,它具備如下幾方面能力:
1)完善的監(jiān)控能力。NOC監(jiān)控體系包含IAAS、PAAS和SAAS的全方位監(jiān)控,各類監(jiān)控數據可通過可視化和自動化報警,能及時發(fā)現和快速定位問題。
2)應急處理能力。設立NOC指揮中心后,監(jiān)控大屏會實時展示基礎架構和業(yè)務數據,通過多維度監(jiān)控分析系統(tǒng)穩(wěn)定性。
3)建立指揮官應急機制,結合OnCall值班制度,可7*24小時應對異常突發(fā)情況。在異常發(fā)生后第一時間組建應急處置小組介進行處理,并及時發(fā)布故障處置過程和進展情況。
4)不斷完善的應急預案,提升了NOC的應急切換能力。通過切換、降級、熔斷等各類手段進行故障快速恢復,縮短MTTR時長。
5)重大業(yè)務和活動保障能力。NOC中心具備活動報備機制,能提前進行容量評估與投入,確保生產活動安全穩(wěn)定,并針對業(yè)務特點配置定制化的監(jiān)控大盤和進行報警。
接下來,通過NOC中心提供的能力建設,將有效提高公司應對故障的處置效率,確保系統(tǒng)穩(wěn)定性,最大程度地預防和減少故障時長和損失,保障業(yè)務連續(xù)性,促進業(yè)務發(fā)展。NOC團隊也將對生產故障從被動應付型向主動保障型、從傳統(tǒng)經驗型向高新技術型轉變,促進匯付應急體系健全發(fā)展、技術創(chuàng)新和迭代并行,全面提升故障應急管理水平。