歡迎您光臨本站 登入註冊首頁

簡單分析伺服器的可用性問題

admin @ 2014-03-14 , reply:0

概述

單分析伺服器的可用性問題作為信息化建設中硬體架構不可或缺的伺服器一直以來都備受關注,同時,伺服器的更新換代也在見證著世界領先科技的發展歷程,不論是最初的16位處理,還是後來紅極一時的32位處理器,甚至……

簡單分析伺服器的可用性問題


作為信息化建設中硬體架構不可或缺的伺服器一直以來都備受關注,同時,伺服器的更新換代也在見證著世界領先科技的發展歷程,不論是最初的16位處理,還是後來紅極一時的32位處理器,甚至包括如今同時支持的32位、64位的處理器以及即將到來的純64位處理器年代,伺服器雖然歷經千變萬化,但有一點一直是永恆不變的主題,那就是伺服器的可用性。一台伺服器如果連最基本的可用性都無法保障,它將無法登上時代的大舞台。

    究竟什麼是伺服器的可用性?它包括哪些內容?為什麼如此受到大家的關注?下面我們將一一作答。

    伺服器的可用性(Usability)其實就是要求伺服器具有高的可靠性、高穩定性、易於管理維護,不要時不時死機、出故障,盡量少出現停機待修現象。因為多數情況下伺服器是要求連續不間斷工作的,所以它的性能穩定、可靠是非常重要,如果是普通的PC死機了重啟,最多時會丟失一些本台電腦上的文檔信息、少量的數據,不會造成巨大的經濟損失。但是如果伺服器出現死機的情況,後果將不堪設想。因為許多重要的數據、資料、信息、記錄都保存在伺服器上,尤其是許多網路服務都在伺服器上運行,一旦伺服器發生故障,將會造成大量數據丟失、許多重要業務停頓,如代理上網、安全驗證、電子郵件服務等都將失效,如果是需要計費的網路,將無法提供準確的計費數據,不但無法實現安全運營,嚴重的將造成整個網路的癱瘓,其損失是難以估量的。而易於管理和維護就不必說了,對於非專業的用戶而言能夠用最簡單的管理去維護網內的所有設備是他們很開心的事情。所以綜上所述,高可靠性、高穩定性和易於管理維護是伺服器可用性的具體體現。

     但是在伺服器的硬體架構的設計上如何來保障可用性呢?關鍵是要做到硬體冗餘和硬體在線診斷技術。其中常見的硬體冗餘包括:磁碟冗餘、電源冗餘和風扇冗餘,另外還有一些RAM冗餘、PCI適配器冗餘和網卡冗餘等;而硬體在線診斷技術則需要包括:熱插拔技術、內存保護技術、內存檢查和糾錯技術、內存鏡像技術、內存熱添加/交換技術、活動PCI技術、活動診斷技術等。

    硬體冗餘比較容易理解,就是對硬體的組成部件採用冗餘備份的方式來保障因部分部件損壞引起的硬體系統的癱瘓,但是出於對設備成本考慮,所以不能做所有部件的冗餘,一般都是對其中一些關鍵部件的冗餘,比如說磁碟冗餘技術,就是人們常說的RAID(磁碟陣列)技術,即:把多塊獨立的硬碟(物理硬碟)按不同方式組合起來形成一個硬碟組(邏輯硬碟),從而提供比單個硬碟更高的存儲性能和提供數據冗餘的技術。在現在的伺服器產品中,基本上都採用了此項技術,支持RAID0、RAID1,使伺服器可以充分利用匯流排的帶寬完成數據的操作,顯著提高磁碟整體存取性能,最大限度的保證用戶數據的可用性。同時現在的伺服器產品有些已經可以提供雙電源和雙風扇的冗餘備份,還可以支持熱插拔技術,這就給電源和風扇創造了一個輕鬆負荷的工作狀態,減少了因電源或風扇的損壞而出現的系統內部問題,從根本上避免了伺服器的工作不穩定和停機。

    但是僅僅提供了硬體不見得冗餘是遠遠不夠的,還需要一些硬體在線診斷技術的配合,才能使伺服器的可用性發揮至極致。比如熱插拔技術,就是指有些部件可以在系統帶電的情況下對部件進行插、撥操作。這非常重要,因為當我們發現一些部件已損壞,但因為提供了硬體冗餘,所以系統仍能繼續保持良好運行。我們需要把損壞的設備更換下來,如果沒有熱插拔技術,就必須關閉伺服器的電源才能進行,這樣就會造成人為的伺服器停機。隨意在航天聯志的伺服器產品,絕大多數都採用了支持硬體熱插拔的功能,比如在電源、硬碟、風扇、內存、網卡等。

    在這裡我們還需要提到內存糾錯技術----ChipKill內存技術,這是一種新的ECC內存保護標準。隨著基於Intel處理器架構的伺服器的CPU性能在以幾何級的倍數提高,而硬碟驅動器的性能同期只提高了5倍,因此為了獲得足夠的性能。伺服器需要大量的內存來臨時保存在CPU上讀取的數據,這樣大的數據訪問量就導致單一內存晶元上每次訪問時通常要提供4(32位)或8(64位)比特以上的數據。一次性讀取這麼多數據,出現多位數據錯誤的可能性會大大地提高,而ECC又不能糾正雙比特以上的錯誤,這樣就很可能造成全部比特數據的丟失,系統就很快崩潰了。

    現在一個伺服器上安裝的內存逐漸增多,在系統中發生與內存有關的錯誤的可能性也在增大。所以在保障伺服器產品可靠性上,不單單採用了Chipkill修復技術,還包括內存保護、內存鏡像和熱交換性能等一些純硬體方法,以及內存熱添加技術等一些軟體方法全方位的保障設備的可靠性,使整個系統的可用性得到了最大的體現。

    內存鏡像是將內存數據做兩個拷貝,分別放在主內存和鏡像內存中。系統工作時會向兩個內存中同時寫入數據,因此使得內存數據有兩套完整的備份。由於採用通道間交叉鏡像的方式,所以每個通道都有一套完整的內存數據拷貝。

    在系統晶元組中設置有 「容錯閾值」。如果任意內存達到了「容錯閾值」,其所在通道就被標示出來,另一個通道單獨工作。但仍然保持雙通道的內存帶寬。

   內存鏡像有效避免了由於內存故障而導致數據丟失。鏡像內存和主內存互成對角線分佈,如果其中一個通道出現故障不能繼續工作,另一個通道仍然具有故障通道的內存數據,有效防止了由於內存通道故障導致的數據丟失,極大提升了伺服器可靠性。鏡像內存的容量要大於等於主內存容量,當系統工作時,鏡像內存不會被系統識別。因此在投資方面,做內存鏡像數據保護的投資是沒有內存保護功能的一倍。

    內存熱備(Sparing)進行內存熱備時,做熱備份的內存在正常情況下是不使用的,也就是說系統是看不到這部分內存容量的。每個內存通道中有一個DIMM不被使用,預留為熱備內存。晶元組中設置有內存校驗錯誤次數的閾值, 即每單位時間發生錯誤的次數。當工作內存的故障次數達到這個「容錯閾值」,系統開始進行雙重寫動作,一個寫入主內存,一個寫入熱備內存,當系統檢測到兩個內存數據一致后,熱備內存就代替主內存工作,故障內存被禁用,這樣就完成了熱備內存接替故障內存工作的任務,有效避免了系統由於內存故障而導致數據丟失或系統宕機。這個做熱備的內存容量應大於等於所在通道的最大內存條的容量,以滿足內存數據遷移的最大容量需求。

    眾所周知,系統過熱是影響伺服器穩定最主要的原因,怎樣保證了伺服器在惡劣環境下長時間滿負荷運轉的溫度正常?比如說採用了前進風的方式,與側進風的方式不同,這種進風方式保證了用戶實際應用過程中,讓安裝在機架上的伺服器能夠有完全通暢的風源。冗餘風扇只是提供了保證當一個散熱風扇出現故障不能起到散熱作用時另一個風扇會馬上工作,保證了一定的散熱能力。

    現在有些伺服器產品更增加了獨特的導風通路,可以集中並控制風流的方向。散熱問題的解決在提高了系統的可靠性的同時,有效延長部件的壽命。

 

[admin via 研發互助社區 ] 簡單分析伺服器的可用性問題已經有3214次圍觀

http://cocdig.com/docs/show-post-42.html