如何在(zài)每次業務(wù)故障的(de)時候自證清白?這(zhè)不(bù)僅是基礎服(fú)務(wù)團隊要關心的(de)內(nèi)容,更是整個(gè)技術團隊想要了解的(de)黑(hēi)匣子(zi)。對于SRE來說(shuō),需要監控程序是否正常;對于主機組來說(shuō),需要監控服(fú)務(wù)器(qì)硬件(jiàn)是否正常;對于網絡來說(shuō),我(wǒ)們首先需要關心網絡設備是否可達。當一台TOR不(bù)可達時,基本上預示著(zhe)會(huì)有一片服(fú)務(wù)器(qì)不(bù)可達,業務(wù)的(de)痛感是相當強烈的(de)。