IBM SVC_PPRC 異地容災(zāi)解決方案
場景介紹:
生產(chǎn)中心與災(zāi)備中心距離200公里,線路帶寬20M,要求RPO等于零,實現(xiàn)數(shù)據(jù)級容災(zāi),容災(zāi)系統(tǒng)盡可能減少對原生產(chǎn)系統(tǒng)的性能影響。
要點說明:
l SVC PPRC Global Mirror,應(yīng)對物理災(zāi)難
l GeoRM + Log Shipping,應(yīng)對邏輯錯誤,誤操作
容災(zāi)系統(tǒng)設(shè)計:
異地容災(zāi)解決方案的核心即在線數(shù)據(jù)復(fù)制,就在其技術(shù)而言,我們認(rèn)為比較成熟的數(shù)據(jù)復(fù)制技術(shù)為:基于智能存儲設(shè)備實現(xiàn)的硬件級別的數(shù)據(jù)復(fù)制,這種數(shù)據(jù)復(fù)制技術(shù)無需占用主機設(shè)備的系統(tǒng)資源,它對主機系統(tǒng)的資源消耗極小,可以保證主機上的應(yīng)用高性能運行。
IBM SVC(SAN Volume Controller)存儲虛擬化產(chǎn)品具有通用性強、實施簡單的特點,透明地加入原有SAN 環(huán)境是SVC的基本功能。SVC是整個SAN 網(wǎng)絡(luò)的控制器,在SAN的分區(qū)上,邏輯上主要劃分為Host Zone和Disk Zone,從而解除主機與存儲設(shè)備的緊密耦合。它將整個SAN中的存儲設(shè)備整合成一個巨大的存儲池,可以充分利用所有的存儲資源(包含第三方存儲設(shè)備)并按業(yè)務(wù)的需求分配存儲空間、性能和功能。因此,通過SVC可以很方便的將目前的存儲設(shè)備進行整合,建立統(tǒng)一的災(zāi)備管理和資源分配平臺,可以按照應(yīng)用/業(yè)務(wù)不斷變化的需求來動態(tài)配置存儲。
IBM SVC目前提供MetroMirror和GlobalMirror兩種高級復(fù)制功能。異步(Global Mirror)功能的設(shè)計目的在于針對業(yè)務(wù)連續(xù)性和災(zāi)難恢復(fù)提供幾乎不受距離限制的長距離異步遠(yuǎn)程復(fù)制能力。在SVC中,同步(MetroMirror)和異步可以作為同一項功能實現(xiàn),以便靈活地實現(xiàn)遠(yuǎn)程復(fù)制功能。
1. PPRC MetroMirror/同步復(fù)制
來自服務(wù)器的更新被寫往本地連接的集群(Cluster)緩存,該系統(tǒng)將數(shù)據(jù)轉(zhuǎn)發(fā)給遠(yuǎn)地點連接的SVC集群(Cluster)的緩存。只有當(dāng)兩個集群(Cluster)的緩存都擁有數(shù)據(jù)的拷貝以后本地系統(tǒng)才會向處理器返回一個I/O完成指示。同步遠(yuǎn)程拷貝能夠在遠(yuǎn)地點提供最新程度的數(shù)據(jù)當(dāng)前值,但應(yīng)用程序會因等待寫I/O操作的完成而被延遲。
MetroMirror將確保如果備份卷不能被更新,那么即使源卷更新成功,整個寫操作也會返回失敗---徹底保證源卷和目的卷的數(shù)據(jù)徹底一致。同步方式可以保證數(shù)據(jù)不會丟失,更重要的是數(shù)據(jù)的一致性在這種方式下能夠得到很好的保證---數(shù)據(jù)的不一致意味著相關(guān)數(shù)據(jù)的丟失,此時數(shù)據(jù)庫的數(shù)據(jù)安全機制無法保證數(shù)據(jù)的安全,嚴(yán)重時有可能造成數(shù)據(jù)庫無法啟動。
MetroMirror/同步復(fù)制示意圖
優(yōu)點: MetroMirror確保如果備份卷不能被更新,那么即使源卷更新成功,整個寫操作也會返回失敗,這可以徹底保證源卷和目的卷的數(shù)據(jù)徹底一致,保證RPO接等于零。
缺點:由于同步復(fù)制災(zāi)備技術(shù)要實現(xiàn)同城災(zāi)備磁盤陣列間的備份寫,因此對整體性能將存在一定的影響。
缺點規(guī)避方法:采用相對高性能容災(zāi)功能實現(xiàn)產(chǎn)品平臺,確保網(wǎng)絡(luò)帶寬及可靠性。
2. PPRC GlobalMirror/異步復(fù)制
在GlobalMirror復(fù)制中,來自服務(wù)器的更新被寫往本地SVC集群(Cluster)的緩存,該系統(tǒng)立即向服務(wù)器返回一個I/O完成指示。更新在很短的一段時間(在實際中通常在數(shù)秒鐘到一分鐘左右,依賴于兩個數(shù)據(jù)中心之間的帶寬和距離)以后被送往一個遠(yuǎn)程SVC集群(Cluster)緩存。異步遠(yuǎn)程拷貝對應(yīng)用程序性能的影響最小,但遠(yuǎn)程磁盤系統(tǒng)在數(shù)據(jù)最新性方面與本地系統(tǒng)相比會有一個延遲。
GlobalMirror/異步復(fù)制示意圖
全球鏡像是以存儲為基礎(chǔ)的、實時的、與應(yīng)用和主機無關(guān)的數(shù)據(jù)遠(yuǎn)程鏡像功能,利用這個功能可以實現(xiàn)數(shù)據(jù)最小丟失(數(shù)秒鐘到一分鐘左右)且具有完全恢復(fù)功能的災(zāi)難恢復(fù)解決方案。
優(yōu)點:由于實現(xiàn)以存儲為基礎(chǔ)的、實時的、與應(yīng)用和主機無關(guān)的數(shù)據(jù)遠(yuǎn)程鏡像功能,因此可以確保應(yīng)用性能的高效性,基本不受到災(zāi)難備份數(shù)據(jù)工作的影響.理論上可以實現(xiàn)無限遠(yuǎn)距離的容災(zāi)備份.
缺點:為確保應(yīng)用性能的高效性, 需要實現(xiàn)數(shù)據(jù)最小丟失(數(shù)秒鐘到一分鐘左右),因此在災(zāi)難發(fā)生的情況下,將有一定數(shù)據(jù)的丟失,丟失程度與網(wǎng)絡(luò)帶寬和業(yè)務(wù)工作量存在關(guān)聯(lián)。
考慮到容災(zāi)系統(tǒng)的部署要盡量減小對原生產(chǎn)系統(tǒng)的性能影響,因此推薦采用 Global Mirror的全球鏡像異步災(zāi)備方案。同時為減少容災(zāi)系統(tǒng)對網(wǎng)絡(luò)帶寬的占用量,部署Cisco MDS 9216i冗災(zāi)存儲網(wǎng)絡(luò)交換機,9216i可支持FCIP壓縮,最大能達到30:1的壓縮比。在各種數(shù)據(jù)源的情況下通常為2:1的壓縮比(根據(jù)以前的項目經(jīng)驗,壓縮比基本在3:1到4:1以上)。
災(zāi)備系統(tǒng)結(jié)構(gòu)圖:
本地中心機房和異地災(zāi)備機房的磁盤陣列分別連接在各自的SAN交換機上,SVC設(shè)備通過SAN交換機透明管理兩地的存儲空間,并通過SVC所具有的PPRC數(shù)據(jù)復(fù)制功能,實現(xiàn)數(shù)據(jù)中心與異地災(zāi)備中心之間的異步數(shù)據(jù)復(fù)制,確保核心數(shù)據(jù)的安全。核心業(yè)務(wù)系統(tǒng)對數(shù)據(jù)的任何修改,均會異步復(fù)制到異地災(zāi)備中心,以實現(xiàn)關(guān)鍵業(yè)務(wù)數(shù)據(jù)從數(shù)據(jù)中心到異地災(zāi)備中心的異地自動復(fù)制。這樣就可以保證,一旦數(shù)據(jù)中心發(fā)生不可抗力因素等災(zāi)難后,可以保障關(guān)鍵數(shù)據(jù)保存。
SVC PPRC 解決了物理災(zāi)難問題,在應(yīng)對邏輯錯誤問題上采用GeoRM+ Log Shipping的數(shù)據(jù)庫復(fù)制方案。既可以保留傳統(tǒng)的數(shù)據(jù)庫本身的數(shù)據(jù)復(fù)制方案的優(yōu)勢,同時又可以針對其局限性作出一定的改進的。
數(shù)據(jù)復(fù)制進程總圖
該解決方案的核心思想為,生產(chǎn)中心各個數(shù)據(jù)庫均工作于歸檔模式,日常生產(chǎn)中各個數(shù)據(jù)庫產(chǎn)生的Archive log將統(tǒng)一由IBM數(shù)據(jù)復(fù)制服務(wù)器完成壓縮并向災(zāi)難備份和恢復(fù)中心實施傳送,災(zāi)難備份和恢復(fù)中心將傳送至的Archive log解壓縮并roll forward 到災(zāi)難備份和恢復(fù)備份服務(wù)器對應(yīng)的數(shù)據(jù)庫上。
生產(chǎn)系統(tǒng)與數(shù)據(jù)復(fù)制系統(tǒng)完全獨立,數(shù)據(jù)復(fù)制系統(tǒng)組件的故障(包括生產(chǎn)端GMD Server故障,數(shù)據(jù)復(fù)制鏈路故障,災(zāi)備端GMD Server故障,災(zāi)備端數(shù)據(jù)庫服務(wù)器故障),均不會對業(yè)務(wù)生產(chǎn)產(chǎn)生影響。