如何讓網絡環境的(de)運行(xíng)狀态更加透明?

發布時間:2023-11-07 | 編輯:深圳網站建設公司(sī)

如何在(zài)每次業務(wù)故障的(de)時候自證清白?這(zhè)不(bù)僅是基礎服(fú)務(wù)團隊要關心的(de)內(nèi)容,更是整個(gè)技術團隊想要了解的(de)黑(hēi)匣子(zi)。


對于SRE來說(shuō),需要監控程序是否正常;對于主機組來說(shuō),需要監控服(fú)務(wù)器(qì)硬件(jiàn)是否正常;對于網絡來說(shuō),我(wǒ)們首先需要關心網絡設備是否可達。當一台TOR不(bù)可達時,基本上預示著(zhe)會(huì)有一片服(fú)務(wù)器(qì)不(bù)可達,業務(wù)的(de)痛感是相當強烈的(de)。


網絡設備的(de)監控最好(hǎo)(hǎo)和業務(wù)監控系統盡量解藕,因為(wèi)網絡故障極有可能引發業務(wù)系統異常,如果恰巧導緻的(de)是業務(wù)的(de)監控系統異常,那網絡設備的(de)告警将失去可靠性,且不(bù)說(shuō)“監控不(bù)準”這(zhè)個(gè)鍋是誰的(de),這(zhè)種局面會(huì)讓網絡工程師(shī)Trouble Shooting時陷入被動,延長(cháng)了故障時間。


每一個(gè)網工在(zài)走出校門(mén)的(de)那一刻,都已經具備基本的(de)編程基礎, 況且交換機的(de)數(shù)量和服(fú)務(wù)器(qì)的(de)數(shù)量有著(zhe)量級上的(de)差别,所以如果你能看懂幾句python,100+的(de)python代碼即可搞定一個(gè)簡易的(de)設備存活監控的(de)程序,Github中可搜索 NodePingManage 就是一個(gè)很好(hǎo)(hǎo)的(de)例子(zi),還可以通過多點部署來消除單點故障。有了這(zhè)類工具, 從此全網的(de)各個(gè)角落的(de)可達性終于明了, 漆黑(hēi)的(de)網絡環境,似乎反射出了一絲光明。


設備日志監控


設備存活告警雖然可以預警很多異常,并且準确度很高(gāo),但(dàn)是對于冗餘性做(zuò)得比較好(hǎo)(hǎo)的(de)網絡,能Ping通并不(bù)代表完全沒問題,此時,細心的(de)網絡工程師(shī)會(huì)去看日志,這(zhè)裡(lǐ)可以反映出更多細節。對于萬台服(fú)務(wù)器(qì)規模,網絡設備的(de)數(shù)量也就千台,但(dàn)是逐台查看日志,人肉判斷是否有異常,那簡直是場噩夢。


《日志告警》程序就成為(wèi)網絡工程師(shī)們居家旅行(xíng)必備之良品,隻需要一台Syslog服(fú)務(wù)器(qì),部署一個(gè)日志監控程序,當發現日志中出現特殊關鍵字,觸發郵件(jiàn)+短信告警即可。這(zhè)麼高(gāo)大上的(de)工具當然需要更多的(de)編程技巧,150+ python代碼才能搞定。Github中類似的(de)解決方法有很多,搜索LogScanWarning即可得到一個(gè)示範案例。

5

從此你可以在(zài)業務(wù)無感的(de)情況下,發現網絡中的(de)異常, 例如:風扇轉速異常/電源模塊故障/ospf鄰居狀态抖動/端口flapping/有黑(hēi)客在(zài)爆破我(wǒ)的(de)設備/設備硬件(jiàn)parity error/模塊收發光異常/Kernel報(bào)錯等等。優秀的(de)網絡工程師(shī)可以在(zài)故障發生時快速定位,牛X的(de)網絡工程師(shī)可以在(zài)故障發生前就消除隐患,防範于未然。


流量監控


高(gāo)速公路(lù)鋪得再好(hǎo)(hǎo),也架不(bù)住車多人多。确保網絡順暢,品質優良,沒有丢包,延時穩定也是網絡工程師(shī)的(de)職責 ,此時流量監控就成了剛需。


業務(wù)的(de)飛速發展體現在(zài)網絡層面就是DC內(nèi)流量上漲/DCI流量上漲/IDC出口流量上漲/專線流量上漲,流量監控可以準确掌握業務(wù)的(de)高(gāo)峰和低谷,當線路(lù)需要擴容時,帶寬使用(yòng)率是老闆參考的(de)重要數(shù)據。一般情況下線路(lù)中的(de)流量超過50%即可發起擴容,因為(wèi)這(zhè)意味著(zhe)當備份鍊路(lù)down之後,主線路(lù)将出現擁塞。


接口error監控


接口的(de)Error包監控和流量監控一樣,均可以通過snmp采集,OID:ifOutErrors,ifInErrors , Error包出現增量會(huì)直接影響業務(wù)的(de)服(fú)務(wù)質量,一旦發現需要優先處理(lǐ),否則業務(wù)會(huì)拎著(zhe)一堆TcpTimeOut指标找上門(mén)來。


當然,可以通過snmp采集的(de)信息還有很多,例如:設備的(de)CPU/內(nèi)存/溫度/防火(huǒ)牆的(de)Session等,掌握這(zhè)些信息對了解設備的(de)工作環境也頗有益處,如果你要做(zuò)一個(gè)自動化(huà)(huà)巡檢工具,那麼這(zhè)些指标必不(bù)可少。市(shì)面上提供網絡監控的(de)軟件(jiàn)有很多,例如:Falcon / Zabbix / Solarwinds / Cacti / Nigos等,有開源的(de)也有收費的(de),功能類似,此處不(bù)加贅述。


制造自動化(huà)(huà)運維工具


深圳網站建設公司(sī)第一章中的(de)組合拳打完之後,基本上不(bù)會(huì)出現“意料之外的(de)故障”,所有的(de)異常都應該有據可查,當SRE莫名其妙提出對網絡環境的(de)質疑時,你應該早已心中有譜。


版權保護: 本文由深圳網站設計(jì)公司(sī)發布,轉載請(qǐng)保留鍊接: 如何讓網絡環境的(de)運行(xíng)狀态更加透明?
如有內(nèi)容侵權,請(qǐng)聯系我(wǒ)們。