在今后的發(fā)展中,數(shù)據(jù)中心也將會(huì)成為企業(yè)競爭的資產(chǎn),商業(yè)模式也會(huì)因此發(fā)生改變。隨著數(shù)據(jù)中心應(yīng)用的廣泛化,人工智能、網(wǎng)絡(luò)安全等也相繼出現(xiàn),更多的用戶都被帶到了網(wǎng)絡(luò)和手機(jī)的應(yīng)用中。隨著計(jì)算機(jī)和數(shù)據(jù)量的增多,人們也可以通過不斷學(xué)習(xí)積累提升自身的能力,是邁向信息化時(shí)代的重要標(biāo)志。
或稱為服務(wù)器場(server farm),指用于安置計(jì)算機(jī)系統(tǒng)及相關(guān)部件的設(shè)施,例如電信和儲(chǔ)存系統(tǒng)。一般它包含冗余和備用電源,冗余數(shù)據(jù)通信連接,環(huán)境控制和安全設(shè)備。
歷史
數(shù)據(jù)中心在早期巨大房間內(nèi)的計(jì)算產(chǎn)業(yè)中是有根源的。早期的計(jì)算機(jī)系統(tǒng)操作和維護(hù)都復(fù)雜,需要一個(gè)特殊的環(huán)境來操作。連接所有的組件需要很多電纜,進(jìn)而產(chǎn)生了供應(yīng)和組織的方法,例如標(biāo)準(zhǔn)支架來安放設(shè)備,提高的地板,以及電纜盤子(被安裝在頭頂上或升高的地板下)。同樣,舊的計(jì)算機(jī)需要大量的電源,不得不被冷卻以防止過熱。安全非常重要-計(jì)算機(jī)非常的貴,并且常常被用于軍事目的??刂朴?jì)算機(jī)房間訪問權(quán)限的基本設(shè)計(jì)方針因此被設(shè)計(jì)。
在繁榮的微型計(jì)算機(jī)行業(yè),尤其是在20世紀(jì)80年代,計(jì)算機(jī)開始四處發(fā)展,在很多案例中很少有或沒有操作需求。然而,隨著信息技術(shù)(IT)的發(fā)展,操作開始變得復(fù)雜,公司漸漸地認(rèn)識(shí)到需要控制IT資源。隨著客戶端-服務(wù)器計(jì)算的出現(xiàn),在20世紀(jì)90年代微型機(jī)(被稱為servers)開始在舊計(jì)算機(jī)房間中尋找他們的位置。便宜的網(wǎng)絡(luò)設(shè)備的可用性,外加網(wǎng)絡(luò)電纜的新標(biāo)準(zhǔn),使得在公司內(nèi)的一個(gè)房間中,使用分層設(shè)計(jì)來放置服務(wù)器這種可能,在這個(gè)時(shí)刻被公認(rèn),并不斷流行開來。
數(shù)據(jù)中心的繁榮在dot-com泡沫中來臨了。公司需要快速的Internet連接,以及不斷的部署系統(tǒng)并出現(xiàn)在Internet上。安裝這種設(shè)備對(duì)于許多小公司是不可行的。許多公司開始建立非常大的設(shè)備,被稱為Internet數(shù)據(jù)中心(IDCs),它提供了商業(yè)上的系統(tǒng)部署和操作的解決方案。新技術(shù)和實(shí)踐被設(shè)計(jì)用來處理測量和如此巨大測量操作的操作需求。
從2007年起,數(shù)據(jù)中心設(shè)計(jì)、構(gòu)建和運(yùn)作是一個(gè)眾所周知的學(xué)科。標(biāo)準(zhǔn)文檔來自于可信任的專家組,如電訊產(chǎn)業(yè)聯(lián)合會(huì),詳細(xì)說明數(shù)據(jù)中心設(shè)計(jì)的需求。眾所周知數(shù)據(jù)中心可用性的操作韻律學(xué)能夠用來評(píng)估商業(yè)中斷的影響。有許多開發(fā)在操作實(shí)踐中被完成,并且設(shè)計(jì)了友好環(huán)境的數(shù)據(jù)中心。
現(xiàn)代數(shù)據(jù)中心的需求
IT業(yè)務(wù)是大部份組織的業(yè)務(wù)中最關(guān)鍵的一個(gè)方面。主要的一個(gè)關(guān)注點(diǎn)是商業(yè)連續(xù)性;公司依靠他們的信息系統(tǒng)來運(yùn)作他們的業(yè)務(wù)。如果一個(gè)系統(tǒng)變的不可用,公司運(yùn)作可能被削弱或被完全停止。針對(duì)IT業(yè)務(wù)保證一個(gè)可靠的基礎(chǔ)構(gòu)造組織,將破壞的可能減到最小,是很必要的。信息安全也是一個(gè)關(guān)注點(diǎn),為了這個(gè)原因,一個(gè)數(shù)據(jù)中心不得不提供安全的環(huán)境以保證最小化一個(gè)安全突破口的可能性。一個(gè)數(shù)據(jù)中心為了它的主機(jī)環(huán)境的完整性和功能性,必須因此保持高標(biāo)準(zhǔn)。這個(gè)通過雙份冗余的光纖光學(xué)電纜和包含應(yīng)急備份發(fā)電電源被完成。
數(shù)據(jù)中心分類
TIA-942:Data Center Standards Overview描述了數(shù)據(jù)中心基礎(chǔ)架構(gòu)的需求。最簡易的是Tier1數(shù)據(jù)中心,他基本上是個(gè)計(jì)算機(jī)房間,有基本的計(jì)算機(jī)系統(tǒng)安裝指引。大部份迫切需求的是Tier4數(shù)據(jù)中心,被設(shè)計(jì)為主機(jī)的任務(wù)評(píng)價(jià)在于計(jì)算機(jī)系統(tǒng),這種系統(tǒng)要完全的冗余并且要被劃分安全區(qū)域,這個(gè)安全區(qū)域要由生物學(xué)測量來控制訪問。另一個(gè)考慮是數(shù)據(jù)中心地下內(nèi)容的布置,為了數(shù)據(jù)安全也為了環(huán)境考慮,例如冷卻需求。
物理布局
一個(gè)數(shù)據(jù)中心占用一幢大樓的一個(gè)房間,一層或多層,甚至整棟大樓。大部份的設(shè)備常常放在具有19英寸的隔層的機(jī)架中。這些機(jī)架成排放置,形成一個(gè)走廊。這允許人們從前面或后面訪問隔層。服務(wù)器從1U的服務(wù)器到獨(dú)立筒倉的存儲(chǔ)設(shè)備在尺寸上有很大的不同,存儲(chǔ)設(shè)備要占掉很多塊地磚。一些設(shè)備,像大型計(jì)算機(jī)和存儲(chǔ)設(shè)備常常像他們的機(jī)架那么大,并被放在他們的旁邊。非常大的數(shù)據(jù)中心可以使用集裝箱來放置,每個(gè)集裝箱可以放置1000或者更多的服務(wù)器;當(dāng)有維修或升級(jí)需要的時(shí)候,整個(gè)集裝箱會(huì)被替換而不是維修單個(gè)的服務(wù)器。 本地編譯的代碼可以控制最小的上升限度。
數(shù)據(jù)中心的物理環(huán)境是嚴(yán)格受控的:
空調(diào)控制數(shù)據(jù)中心的溫度和濕度。ASHRAE"s “數(shù)據(jù)處理環(huán)境的熱量指導(dǎo)” 建議溫度在20-25 °C(68-75 °F) 并且濕度在40-55%,以數(shù)據(jù)中心最佳條件17 °C作為最大露點(diǎn)。電源會(huì)加熱數(shù)據(jù)中心里的空氣。除非熱量被移走,否則溫度會(huì)持續(xù)上升,導(dǎo)致電源設(shè)備故障。通過控制空氣溫度,服務(wù)器組件在擱板層保持著制造商說明的溫度/濕度范圍??照{(diào)系統(tǒng)通過冷卻來回的在露點(diǎn)以下的空間空氣,幫助控制濕度。太濕的話,水開始在內(nèi)部組件上濃縮。假使空氣干燥,輔助潮濕系統(tǒng)會(huì)增加水蒸氣,如果濕度太低,將導(dǎo)致靜電放電問題,那將損壞組件。地下的數(shù)據(jù)中心比起常規(guī)的設(shè)計(jì),能夠花費(fèi)更少而保持計(jì)算機(jī)設(shè)備冷卻。
現(xiàn)代數(shù)據(jù)中心試圖使用節(jié)約裝置冷卻,在那里他們使用外界空氣來保證數(shù)據(jù)中心冷卻。華盛頓州現(xiàn)在有幾個(gè)的數(shù)據(jù)中心,一年11個(gè)月使用外部空氣冷卻所有的服務(wù)器。他們沒有使用冷卻機(jī)或空調(diào),他們創(chuàng)造了勢(shì)能節(jié)省了數(shù)百萬。
備份電源由一個(gè)或多個(gè)不間斷電供應(yīng)和、或者柴油機(jī)組成。
為了防止單點(diǎn)故障,所有的電系統(tǒng)元素,包括備份系統(tǒng),都典型的完全復(fù)制,并且關(guān)鍵服務(wù)器連接兩個(gè)電源(“A-Side" and "B-Side")區(qū)域。這種安排常常用于完成系統(tǒng)的N+1冗余。靜態(tài)電閘有時(shí)被用于在電源故障事件中保證瞬時(shí)轉(zhuǎn)換一個(gè)到另一個(gè)。
數(shù)據(jù)中心典型地使用升高60cm(2 ft)的地面,可移動(dòng)的方塊磚?,F(xiàn)在的趨勢(shì)是80-100cm(31.5-39.4in),空閑區(qū)域的增加是為了更好的保證空氣流通。這種供應(yīng)是為了空氣在地下充分流通,作為條件系統(tǒng)的一部分,也是為電力電纜提供空間。在現(xiàn)代數(shù)據(jù)中心中數(shù)據(jù)電纜典型是使用架空電纜。但是,有些出于安全原因還是將他們置與地板下,并且有必要增加在架子上的冷卻系統(tǒng)。更小/更少花費(fèi)的數(shù)據(jù)中心沒有升高地面而是使用相反的靜態(tài)地磚在地面上。機(jī)算計(jì)電纜常常放置在走廊中,以保證最大化的氣流效率。
數(shù)據(jù)中心的一個(gè)特征是防火系統(tǒng),包含被動(dòng)的和主動(dòng)的設(shè)計(jì)元素,以及在業(yè)務(wù)中防火程序的執(zhí)行。煙檢測器都會(huì)被安裝,它可以在有火焰之前檢測到燜燒產(chǎn)生的煙的源點(diǎn),而發(fā)出警報(bào)。這允許調(diào)查,中斷電源,并使得能夠在火災(zāi)變大之前,讓人使用滅火器滅火。一個(gè)自動(dòng)噴水滅火系統(tǒng)常常被用來控制火勢(shì)發(fā)展為大范圍的火災(zāi)。自動(dòng)噴水滅火系統(tǒng)要求在噴水滅火器下的清除的18”。和噴水滅火系統(tǒng)相比,清除事件滅火氣體系統(tǒng)有時(shí)被安裝用于早期火災(zāi)。被動(dòng)的消防保護(hù)元素包括在數(shù)據(jù)中心周圍的防火墻,所以大火能夠在大火保護(hù)系統(tǒng)失敗或沒有安裝的情況下較容易地控制在一定的范圍內(nèi)。
物理安全在數(shù)據(jù)中心里也表演了一個(gè)大角色。物理的訪問地點(diǎn)常常限制于被選擇的人員,包含安全控制系統(tǒng)。視頻監(jiān)視和永久安全警報(bào)常常用于大數(shù)據(jù)中心或者包含機(jī)密信息的數(shù)據(jù)中心。
流動(dòng)數(shù)據(jù)中心
現(xiàn)時(shí)網(wǎng)上商貿(mào)、搜尋、云端運(yùn)算公司需要快速部署數(shù)據(jù)中心,又或?yàn)?zāi)難恢復(fù)運(yùn)用,因此廠商開發(fā)了流動(dòng)數(shù)據(jù)中心(Portable Data Center)解決方案,能夠快速搬運(yùn)數(shù)據(jù)中心并在短時(shí)間內(nèi)安裝操作。
生產(chǎn)流動(dòng)數(shù)據(jù)中心的廠商和產(chǎn)品包括:Google的 Google Modular Data Center 、升陽計(jì)算機(jī)的 Sun Modular Datacenter 、 IBM的 Portable Modular Data Center 、思科系統(tǒng)的 Containerized Data Center、HP的 Performance Optimized Datacenter和北京天地云箱科技的云箱。
應(yīng)用
一個(gè)數(shù)據(jù)中心的主要目的是運(yùn)行應(yīng)用來處理商業(yè)和運(yùn)作的組織的數(shù)據(jù)。這樣的系統(tǒng)屬于并由組織內(nèi)部開發(fā),或者從企業(yè)軟件供應(yīng)商那里買。像通用應(yīng)用有ERP和CRM系統(tǒng)。
一個(gè)數(shù)據(jù)中心也許只關(guān)注于操作體系結(jié)構(gòu),或者也提供其他的服務(wù)。常常這些應(yīng)用由多個(gè)主機(jī)構(gòu)成,每個(gè)主機(jī)運(yùn)行一個(gè)單一的構(gòu)件。通常這種構(gòu)件是數(shù)據(jù)庫,文件服務(wù)器,應(yīng)用服務(wù)器,中間件以及其他的各種各樣的東西。
數(shù)據(jù)中心也常常用于非工作站點(diǎn)的備份。公司也許預(yù)定被數(shù)據(jù)中心提供的服務(wù)。這常常聯(lián)合備份磁帶使用。備份能夠?qū)⒎?wù)器本地的東西放在磁帶上,然而,磁帶存放場所也易受火災(zāi)和洪水的安全威脅。較大的公司也許發(fā)送他們的備份到非工作場所。這個(gè)通過回投而能夠被數(shù)據(jù)中心完成。加密的備份能夠通過Internet發(fā)送到另一個(gè)數(shù)據(jù)中心,安全保存起來。
常見故障
數(shù)據(jù)中心網(wǎng)絡(luò)常見的通訊故障主要集中在:硬件故障、系統(tǒng)故障兩個(gè)類別:
?。?)硬件故障:
數(shù)據(jù)中心是通過無數(shù)計(jì)算機(jī)硬件組成的,硬件出現(xiàn)問題,就會(huì)導(dǎo)致部分功能無法正常發(fā)揮或運(yùn)作。無論是設(shè)備、線路、端口,哪一點(diǎn)出現(xiàn)故障,都會(huì)導(dǎo)致網(wǎng)絡(luò)通訊故障的出現(xiàn)。硬件方面的故障相對(duì)比較容易查找,例如線路故障,一般的成因就是線路明顯的老化或者破損,而影響到了整體網(wǎng)絡(luò)的運(yùn)營;再比如,端口故障,計(jì)算機(jī)端口作為數(shù)據(jù)中心網(wǎng)絡(luò)的重要環(huán)節(jié),若出現(xiàn)接觸不良、損壞等傳輸問題,就會(huì)影響到整體網(wǎng)絡(luò)的運(yùn)行。硬件故障只要進(jìn)行逐一排查,就可以及時(shí)進(jìn)行更換處理,相對(duì)比較好解決。
?。?)系統(tǒng)故障:
數(shù)據(jù)中心是計(jì)算機(jī)領(lǐng)域比較熱門的研究之一,因此研究技術(shù)十分成熟。計(jì)算機(jī)網(wǎng)絡(luò)構(gòu)成主要包括TREE、FAT-TREE、BCUBE、FICONN等,主要采用模塊化、層次化、扁平化的設(shè)計(jì)思路與虛擬化的分割管理技術(shù),將成千上萬臺(tái)設(shè)備,以單元為單位進(jìn)行劃分,逐一進(jìn)行管理。通過分層、遞歸的結(jié)構(gòu)進(jìn)行聯(lián)結(jié),盡可能的避免了所謂“關(guān)鍵節(jié)點(diǎn)”的存在。這樣組合也形成了良好的冗余與容錯(cuò)性,如果其中出現(xiàn)故障的某一個(gè)或某幾個(gè)單元,沒有被檢測出來,也不至于影響數(shù)據(jù)中心的整體運(yùn)行。但是如果超出一定比例,就會(huì)在影響數(shù)據(jù)中心網(wǎng)絡(luò)的高速運(yùn)行,拉慢網(wǎng)絡(luò)通訊的速度,所以仍舊需要針對(duì)性的查找故障進(jìn)行處理。
故障處理
?。?)分析故障現(xiàn)象:
一般來說由于構(gòu)成組件比較復(fù)雜,故障也呈現(xiàn)出不同的表現(xiàn)方式。因此想要對(duì)于故障進(jìn)行分析,就要先了解故障的現(xiàn)象。例如,應(yīng)用方面出現(xiàn)了支付系統(tǒng)支付不了,網(wǎng)頁難以打開等問題,那么就要逐一檢查相關(guān)的故障點(diǎn),有哪幾個(gè)故障是上述表現(xiàn),如,線路故障,端口故障等,就要更換線路、端口等設(shè)備。因此,需要針對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)的幾種常見的故障進(jìn)行收集與整理,根據(jù)現(xiàn)象,進(jìn)行檢索、查找。
?。?)測試并確認(rèn)故障范圍,進(jìn)行故障點(diǎn)定位。
所有的應(yīng)用業(yè)務(wù)是在這些物理硬件正常運(yùn)行的基礎(chǔ)上開展的,其中某些硬件出現(xiàn)問題就會(huì)導(dǎo)致故障。根據(jù)故障的表現(xiàn),需要針對(duì)各個(gè)部分進(jìn)行篩選檢查,例如,對(duì)于服務(wù)器進(jìn)行測試,檢查網(wǎng)絡(luò)設(shè)備等。針對(duì)問題表現(xiàn),進(jìn)行逐一排除,最終敲定故障點(diǎn)所在位置。
?。?)如果以上硬件故障都已經(jīng)排除,那么就是計(jì)算機(jī)系統(tǒng)的故障,這一故障需要建立故障模型進(jìn)行診斷,根據(jù)PMC模型進(jìn)行定義。通過分層測試的方法,查找問題單元,即正常單元測試正常單元、正常單元測試故障單元、故障單元測試故障單元、故障單元測試正常單元等四種。其中后三種的檢測結(jié)果都是故障,因此就可以通過分層測量的方式,建立有限個(gè)單元,通過矩陣以及螢火蟲算法重點(diǎn)FAFD算法對(duì)于其他單元進(jìn)行診斷,最終確定故障的系統(tǒng)是哪個(gè)或者哪幾個(gè)單元的。當(dāng)然也可以通過鏡像、流量統(tǒng)計(jì)、抓包等其他手段確定故障所在的設(shè)備范圍,進(jìn)而縮小范圍,集中處理某一個(gè)或者幾個(gè)設(shè)備。
?。?)收集重要的數(shù)據(jù)信息。
在進(jìn)行故障處理時(shí),通過收集設(shè)備的日志、診斷、操作記錄等信息資料,將這些數(shù)據(jù)資料進(jìn)行匯總,條件允許的情況下,建立故障數(shù)據(jù)庫,對(duì)于常見問題可以做到“出現(xiàn)即處理”,對(duì)于沒有出現(xiàn)過的故障,可以繼續(xù)收集進(jìn)數(shù)據(jù)庫??傊?,必要的信息收集,有利于日后更好的查找故障原因,確保數(shù)據(jù)中心網(wǎng)絡(luò)健康、平穩(wěn)運(yùn)行。
內(nèi)容來自百科網(wǎng)