數(shù)據(jù)中心交換機(jī)是通信系統(tǒng)中的關(guān)鍵部分,本文對(duì)數(shù)據(jù)中心交換機(jī)在線診斷做了一些簡(jiǎn)要闡述,并對(duì)技術(shù)故障維護(hù)做了分析。
《江蘇通信》1985年創(chuàng)刊,立足江蘇通信行業(yè),面向世界通信發(fā)展,報(bào)道最新科技成果,開(kāi)展學(xué)術(shù)技術(shù)培訓(xùn)交流。堅(jiān)持為社會(huì)主義服務(wù)的方向,堅(jiān)持以馬克思列寧主義、毛澤東思想和鄧小平理論為指導(dǎo),貫徹“百花齊放、百家爭(zhēng)鳴”和“古為今用、洋為中用”的方針,堅(jiān)持實(shí)事求是、理論與實(shí)際相結(jié)合的嚴(yán)謹(jǐn)學(xué)風(fēng),傳播先進(jìn)的科學(xué)文化知識(shí),弘揚(yáng)民族優(yōu)秀科學(xué)文化,促進(jìn)國(guó)際科學(xué)文化交流,探索防災(zāi)科技教育、教學(xué)及管理諸方面的規(guī)律,活躍教學(xué)與科研的學(xué)術(shù)風(fēng)氣,為教學(xué)與科研服務(wù)。
對(duì)于數(shù)據(jù)中心交換機(jī)設(shè)備來(lái)說(shuō),由于所承載的應(yīng)用重要性,一旦發(fā)生故障,必須要能夠快速定位及解決問(wèn)題。但是面對(duì)當(dāng)前異常復(fù)雜的數(shù)據(jù)中心組網(wǎng)拓?fù)湟约熬S護(hù)定位手段的缺失,如何才能應(yīng)對(duì)這一挑戰(zhàn)?本文就此問(wèn)題作出一些技術(shù)分析,在線診斷分析當(dāng)前設(shè)備的運(yùn)行情況,對(duì)故障和異常能自動(dòng)發(fā)現(xiàn)、自動(dòng)恢復(fù)、自動(dòng)隔離。滿足用戶對(duì)設(shè)備更高的可維護(hù)診斷需求。
一、 概述
1. 診斷維護(hù)需求
數(shù)據(jù)中心交換機(jī)設(shè)備良好的可維護(hù)可診斷體現(xiàn)在多個(gè)方面,主要關(guān)注于對(duì)器件、業(yè)務(wù)的故障檢測(cè)與響應(yīng):
l 器件的可靠性檢測(cè):器件的可靠是整個(gè)設(shè)備可靠的基礎(chǔ),只有每個(gè)器件可靠了,才能保證整個(gè)系統(tǒng)的可靠運(yùn)行。器件作為獨(dú)立的角色,針對(duì)器件的檢測(cè)非常簡(jiǎn)單和也非常有效。
l 業(yè)務(wù)的可靠性檢測(cè):交換機(jī)設(shè)備的主要功能就是業(yè)務(wù)轉(zhuǎn)發(fā)功能。在某些硬件故障情況下,往往業(yè)務(wù)端口仍處于UP狀態(tài),但設(shè)備卻無(wú)法正常轉(zhuǎn)發(fā)報(bào)文。在這種情況下,加上組網(wǎng)的復(fù)雜度,如遇嚴(yán)重故障,維護(hù)人員很難感知故障,更無(wú)法快速確定到故障點(diǎn)。這就需要業(yè)務(wù)可靠性檢測(cè)功能,及時(shí)的發(fā)現(xiàn)和處理業(yè)務(wù)轉(zhuǎn)發(fā)的故障。
l 故障的自動(dòng)分析、定位和恢復(fù)功能:在目前復(fù)雜的組網(wǎng)情況下,找到一個(gè)故障點(diǎn),并明確故障所在的單板往往需要幾十分鐘甚至幾個(gè)小時(shí)的時(shí)間,這無(wú)疑對(duì)維護(hù)人員來(lái)說(shuō)是場(chǎng)噩夢(mèng)。如果設(shè)備能自動(dòng)分析、定位和恢復(fù)故障,就可以有效降低維護(hù)的人力投入,同時(shí)極大的減少了故障時(shí)對(duì)業(yè)務(wù)的影響。
2. 設(shè)想中的診斷維護(hù)架構(gòu)
要實(shí)現(xiàn)診斷維護(hù)的這些需求,可以準(zhǔn)備一整套的診斷架構(gòu),基于該架構(gòu)可以方便的實(shí)現(xiàn)整體的診斷維護(hù)功能。該診斷架構(gòu)主要分成三部分。如圖1所示,從下到上,首先是通過(guò)對(duì)器件、單板、業(yè)務(wù)的檢測(cè)來(lái)及時(shí)發(fā)現(xiàn)故障,然后把故障檢測(cè)結(jié)果報(bào)告給在線智能診斷分析模塊對(duì)故障進(jìn)行分析、深入定位,最后智能診斷分析模塊根據(jù)分析的結(jié)果進(jìn)行故障保護(hù)性處理,包括把故障告警通知用戶維護(hù)人員,并進(jìn)行恢復(fù)和保護(hù)性倒換。
二、 在線檢測(cè)——發(fā)現(xiàn)故障
交換機(jī)可以通過(guò)在線器件故障檢測(cè)功能在設(shè)備運(yùn)行時(shí),定時(shí)不斷的掃描各主要器件的(如單板電源模塊、時(shí)鐘、晶振、CPLD、內(nèi)存、轉(zhuǎn)發(fā)芯片等)運(yùn)行情況,一旦出現(xiàn)器件故障,及時(shí)通知到智能分析模塊進(jìn)行保護(hù)處理。其器件檢測(cè)基于軟硬件的結(jié)合,快速、可靠。以對(duì)時(shí)鐘的檢測(cè)為例,時(shí)鐘作為硬件轉(zhuǎn)發(fā)芯片的工作基礎(chǔ),如果出現(xiàn)偏差和停止輸出會(huì)造成整個(gè)轉(zhuǎn)發(fā)芯片無(wú)法工作??梢詫?duì)時(shí)鐘輸出信號(hào)提取一路出來(lái)通過(guò)CPLD在線實(shí)時(shí)監(jiān)控,當(dāng)時(shí)鐘出現(xiàn)過(guò)大偏差或停止輸出時(shí),就主動(dòng)觸發(fā)中斷通知CPU的智能診斷模塊進(jìn)行保護(hù)性處理。
而對(duì)于交換機(jī)的業(yè)務(wù)板、主控板在內(nèi)的各種單板檢測(cè)而言,這些單板都有獨(dú)立的CPU,互相間的通訊通過(guò)板間通訊通道進(jìn)行,是完全獨(dú)立的一套系統(tǒng)。在這種分布式的架構(gòu)下,設(shè)備需要快速的感知各單板的運(yùn)行狀態(tài)和故障情況,確保業(yè)務(wù)能選擇最優(yōu)路徑轉(zhuǎn)發(fā)。高端交換機(jī)可以使用獨(dú)立的檢測(cè)平面,定時(shí)快速的掃描各單板的運(yùn)行、業(yè)務(wù)處理情況,對(duì)處于異常的單板根據(jù)故障通知智能分析模塊及時(shí)進(jìn)行保護(hù)性處理。例如:在分布式設(shè)備中,有很多的數(shù)據(jù)報(bào)文發(fā)送和處理都是在業(yè)務(wù)處理板上進(jìn)行的,設(shè)備會(huì)自動(dòng)根據(jù)單板的故障狀態(tài),對(duì)業(yè)務(wù)處理優(yōu)選正常運(yùn)行單板進(jìn)行處理,確保業(yè)務(wù)處理的高效和正確。
交換機(jī)最基礎(chǔ)的功能是正確轉(zhuǎn)發(fā)業(yè)務(wù)報(bào)文。在線業(yè)務(wù)檢測(cè)就是在線檢測(cè)整個(gè)業(yè)務(wù)轉(zhuǎn)發(fā)通道是否正常,如果正常,表明整個(gè)系統(tǒng)的轉(zhuǎn)發(fā)功能是正常的。如果出現(xiàn)異常,就要及時(shí)通知智能分析模塊,由智能分析模塊來(lái)定位出故障點(diǎn),并進(jìn)行相應(yīng)的保護(hù)處理。例如:當(dāng)某塊業(yè)務(wù)板的某個(gè)轉(zhuǎn)發(fā)芯片出現(xiàn)轉(zhuǎn)發(fā)故障,業(yè)務(wù)通道檢測(cè)功能就能快速的感知到其它轉(zhuǎn)發(fā)芯片到該芯片的業(yè)務(wù)通道故障,通知智能診斷分析模塊對(duì)該芯片進(jìn)行保護(hù)處理。例如可以通過(guò)關(guān)閉該芯片上對(duì)應(yīng)的物理端口,把流量切換到備份的端口以快速的恢復(fù)業(yè)務(wù)。
三、 在線智能診斷分析技術(shù)——分析故障
通常交換機(jī)設(shè)備出現(xiàn)故障時(shí),往往只能提示用戶出現(xiàn)故障,卻無(wú)法進(jìn)一步深入的判定問(wèn)題所在和保護(hù)處理??梢酝ㄟ^(guò)一整套的在線智能診斷技術(shù),根據(jù)故障的原因和用戶配置的情況,實(shí)現(xiàn)告警、故障隔離、故障嘗試恢復(fù)等處理。
如圖1中間層所示,在線智能診斷分析模塊會(huì)自動(dòng)的收集各種檢測(cè)的結(jié)果,對(duì)出現(xiàn)異常的檢測(cè)結(jié)果將交由深入探測(cè)功能模塊進(jìn)一步深入分析和定位,判斷出故障點(diǎn),通知用戶更換故障單板,并對(duì)故障實(shí)施隔離、嘗試恢復(fù)等動(dòng)作,對(duì)業(yè)務(wù)進(jìn)行保護(hù)性倒換。
例如:某業(yè)務(wù)板出現(xiàn)故障,造成報(bào)文轉(zhuǎn)發(fā)丟包。這時(shí),業(yè)務(wù)通道故障檢測(cè)發(fā)現(xiàn)轉(zhuǎn)發(fā)異常,將故障報(bào)告給在線智能診斷模塊,該模塊會(huì)通知深入探測(cè)診斷功能模塊啟動(dòng)對(duì)各業(yè)務(wù)單板的深度探測(cè)功能,最終定位到故障點(diǎn)為某塊故障單板后,在線智能診斷模塊會(huì)把該業(yè)務(wù)板隔離,去除該業(yè)務(wù)板對(duì)轉(zhuǎn)發(fā)的影響,恢復(fù)業(yè)務(wù)。同時(shí),告警提示用戶更換該業(yè)務(wù)板。
四、 在線保護(hù)技術(shù)——處理故障
在線智能診斷分析在分析到故障后,會(huì)根據(jù)當(dāng)前系統(tǒng)的配置情況和故障原因,進(jìn)行一系列動(dòng)作進(jìn)行故障的自動(dòng)恢復(fù)處理(如圖1最上層所示),其中必須要實(shí)現(xiàn)關(guān)閉端口和單板隔離。
1. 關(guān)閉端口(故障端口自動(dòng)備份切換技術(shù))
作為數(shù)據(jù)中心組網(wǎng)中,在組網(wǎng)規(guī)劃時(shí)往往會(huì)考慮通過(guò)跨板鏈路聚合、IRF/VSS等技術(shù)提供冗余備份保護(hù)。當(dāng)設(shè)備出現(xiàn)硬件轉(zhuǎn)發(fā)故障時(shí),往往端口依然是是UP狀態(tài),因此對(duì)端設(shè)備會(huì)認(rèn)為該端口為可用端口,流量照常往該端口轉(zhuǎn)發(fā),結(jié)果造成冗余備份保護(hù)無(wú)法生效。
結(jié)合在線診斷檢測(cè)和分析功能,設(shè)備可以在檢測(cè)到硬件或者轉(zhuǎn)發(fā)故障時(shí),根據(jù)定位到的故障點(diǎn),檢查故障影響的用戶端口,如果該用戶端口存在備份鏈路,則自動(dòng)關(guān)閉該用戶端口,使對(duì)端的流量倒換到備份鏈路上。該技術(shù)結(jié)合IRF/VSS等跨框聚合可以更加完善的提供冗余備份功能。
如圖2所示,用戶在IRF設(shè)備上配置PortA和PortC聚合,PortB和PortD聚合。服務(wù)器A和服務(wù)器B間的流量如上圖所示。在PortA、PortB端口所在單板出現(xiàn)轉(zhuǎn)發(fā)故障時(shí),此時(shí)由于仍為UP端口,交換機(jī)A和交換機(jī)B仍繼續(xù)執(zhí)行負(fù)載分擔(dān)把流量發(fā)送給PortA、PortB,但實(shí)際情況卻是因轉(zhuǎn)發(fā)故障造成紅色的流量全部在交換機(jī)上被丟棄。
現(xiàn)在,在配置了故障端口自動(dòng)備份切換功能后。智能診斷分析模塊在定位到該單板故障后,分析出該板的PortA、PortB端口存在備份端口PortC、PortD,則對(duì)PortA和PortB執(zhí)行管理DOWN,交換機(jī)A和交換機(jī)B即可以感知到端口變化,只把流量發(fā)送到PortC和PortD端口上,即流量只走綠色的路徑轉(zhuǎn)發(fā),兩臺(tái)服務(wù)器間的流量恢復(fù)轉(zhuǎn)發(fā)正常。
2. 單板隔離技術(shù)
單板隔離是將指定單板從業(yè)務(wù)平面中隔離出來(lái),不再參與業(yè)務(wù)轉(zhuǎn)發(fā)。被隔離單板仍在管理平面中,可對(duì)其進(jìn)行重啟等基本操作。交換機(jī)設(shè)備在出現(xiàn)硬件單板故障時(shí)可以自動(dòng)的進(jìn)行故障單板隔離處理,也可以手工命令對(duì)故障單板來(lái)進(jìn)行隔離,并可將單板隔離后進(jìn)行現(xiàn)場(chǎng)診斷,方便準(zhǔn)確、深入的定位分析故障原因。
當(dāng)對(duì)線卡板設(shè)置隔離后,該線卡板的所有業(yè)務(wù)端口被管理關(guān)閉,不會(huì)有報(bào)文從外部進(jìn)入該板;線卡板對(duì)應(yīng)的交換網(wǎng)端口也被關(guān)閉,不會(huì)有報(bào)文從其他線卡板轉(zhuǎn)發(fā)過(guò)來(lái);從而使該板從轉(zhuǎn)發(fā)業(yè)務(wù)中脫離出來(lái)。
當(dāng)對(duì)內(nèi)部交換單板設(shè)置隔離后,內(nèi)部交換單板上的交換網(wǎng)芯片被設(shè)置為“不可達(dá)”,從而該網(wǎng)板從轉(zhuǎn)發(fā)業(yè)務(wù)中脫離出來(lái)。高端數(shù)據(jù)中心設(shè)備一般具有多塊內(nèi)部交換單板,內(nèi)部交換單板間互為冗余備份,在對(duì)部分內(nèi)部交換單板的故障隔離后,不會(huì)影響整體轉(zhuǎn)發(fā)功能。在檢測(cè)到內(nèi)部交換單板故障后,如果會(huì)自動(dòng)進(jìn)行該單板的隔離處理,可以確保故障單板不影響業(yè)務(wù)轉(zhuǎn)發(fā)。
五、 結(jié)束語(yǔ)
由以上分析可知,對(duì)于數(shù)據(jù)中心交換機(jī)設(shè)備而言,其診斷維護(hù)功能的需求發(fā)展趨勢(shì)是自動(dòng)發(fā)現(xiàn)故障、自動(dòng)隔離故障、自動(dòng)故障恢復(fù),做到設(shè)備無(wú)需維護(hù),機(jī)房無(wú)需值守。這尤其對(duì)于數(shù)據(jù)中心,以及其中的核心交換機(jī)設(shè)備的運(yùn)維效率與效果意義重大。
論文指導(dǎo) >
SCI期刊推薦 >
論文常見(jiàn)問(wèn)題 >
SCI常見(jiàn)問(wèn)題 >
请填写信息,出书/专利/国内外/中英文/全学科期刊推荐与发表指导