“多活”不易! —— GitHub事件在前,青云推出真正的多活是良機也是挑戰!
來源: 企業網D1Net 作者:曹建菊
“多活”不易!活得有質量更不容易!當然,這里的“多活”并非生物學概念,一般常將“本地多活”與“異地災備”拿來做比較。但最近“多活”被提起來的次數越來越多,也越來越被重視,GitHub事件成為多活這個技術領域的標志性事件。
多活不易 GitHub標志性事件回顧
GitHub在全球擁有2800萬用戶,托管著5700萬個代碼倉庫,Python、Ruby on Rails等絕大多數開源項目托管于此。被戲稱為“全球最大的同性交友社區”的GitHub,卻在2018年10月22日時出現了一次大規模的故障,導致服務中斷時間24小時,這24小時故障導致絕大部分互聯網企業的技術人員無法正常工作,影響很大。
事實上,GitHub搭建了自己的多活系統,而10月份的故障,正是因為其多活系統出現故障而導致的。GitHub兩個機房之間的網絡出現中斷,服務發生切換后,多活系統考慮不全,導致系統發生腦裂,兩邊數據不一致,為了保證用戶數據的一致性,只能直接停服,用了24小時時間恢復數據,最終導致了服務中斷。
GitHub這樣一個實力強勁的技術網站,多活業務也出現了如此大的故障。由此可見,實現真正的多活并不容易。
什么是真正的多活?
不容易的多活技術,催生的不僅是這個市場,更緣于業務對多活的需求。對客戶而言,業務的可靠性、連續性、穩定性才是真正的訴求。
無論是設備還是硬件,便一定會有故障的幾率。電飯煲發生故障便無法做飯;熱水器發生故障就沒法洗澡;數據中心里需要依賴的硬件也有故障的可能性,服務器故障時會影響這臺服務器上運行的所有虛擬主機;交換機故障會影響數據中心網絡。即便是整個數據中心,也有可能因為斷電、起火、雷擊等原因發生整體故障。
因而,多活應該是基于多個數據中心的多活,而且最終的多活一定是業務的多活,可以7*24小時保證業務在線,同時必須規避任何的單點,包括一個數據中心內部的單點甚至是整個數據中心宕機的單點。
青云QingCloud運營副總裁林源在接受企業網D1Net記者采訪時指出:“部署多活,一定要理解多活的目的是什么?增強系統的可靠性、提升業務的連續性,使業務在運行過程中不受任何故障和災難的影響。這是多活的價值所在,這才是真正的多活。”
多活的兩大技術指標:RTO與RPO
多活有兩個重要的技術指標:一是RTO(業務恢復時間),二是RPO(數據的丟失量)。
這兩個指標無論對于互聯網企業還是對于銀行等核心業務,都至關重要。業務恢復時間決定了客戶體驗,數據的丟失量決定了數據的質量,因此,這兩個指標都必須趨近于0,同時需要保證是7*24小時在線的可用服務。
多活場景探討
并不是所有的場景都需要多活,因為多活需要付出一定的成本。需要多活的業務,一是這個業務很重要,它故障后會影響公司業務,導致客戶資金受損;二是這個業務面向廣泛的客戶,影響較大。一般包括如下幾類:
第一種是大規模線上運營業務,比如電商網站、微信、微博等,業務中斷是不能忍受的,因為每天都有大量的客戶在使用這個服務。雙十一的每秒宕機就可能損失幾十萬筆交易,這樣的業務要求零中斷,必須保證業務的連續性。
第二種是銀行、保險、重型制造等場景,銀行IT架構需要符合銀監會的規定,需要有兩地三中心。即兩個城市,三個數據中心的部署。
多活不易 “不易”的深層原因探討
多活不易,除了我們看到類似GitHub這樣的技術企業都很難搞定的表象外,更深層次的原因在于它是一個系統工程,既需要技術,也需要人才儲備,還有各種大額成本投入等等因素。
首先,構建多活系統成本極高,比如銀行兩地三中心的業務至少需要在兩個城市投入三個機房,三個機房需要有網絡連接,在每個機房里要投入大規模的硬件,業務在兩個機房都要部署,成本極高。
其次,多活系統需要招聘和培養專業人員;
第三,需要花費大量的時間,挑機房、鋪光纖、鋪網絡。
實際上,要做好支撐業務的多活,首先需要在數據中心、網絡、數據、負載等層面做準備,其次,作為一個復雜的系統工程,只要底層任意一個環節出現問題,便有可能造成整套多活系統的崩潰。
青云多活以服務形式交付多活能力
據林源介紹,青云多活推出的Region服務,可以從基礎設施、基礎架構(IaaS)、分布式應用等各個層面提供多活基礎架構服務,以服務形式交付多活能力,從而讓客戶以更低的成本、更低的門檻部署他們自己的多活業務。
第一,青云將從基礎設施層持續投入,青云現有三個大區提供多活服務:北京3區、廣東2區、上海1區。北京3區最早便上線了多活Region架構。
第二,青云將在基礎架構(IaaS)給用戶提供足夠多的通用組件,當用戶部署業務時,會需要負載均衡器、網絡、公網帶寬等。青云提供的負載均衡、網絡和公網本身均是多活架構。
第三,青云將在應用層或者PaaS層給用戶提供支撐,通過青云的MySQL Plus(基于MySQL的數據庫服務)、MongoDB,為客戶提供數據庫服務,讓用戶部署業務更簡單。
同時,青云擁有全方位一體化的交付能力,不僅提供公有云服務,也可以提供混合云和私有云的交付。在公有云上,青云可以交付多活的基礎設施;在混合云架構下,也可以利用青云的SD-WAN骨干網加上私有云和公有云統一架構,給客戶提供混合云架構下的多活基礎設施。
寫在最后
事實上,GitHub事件在前,讓多活解決方案提供商及服務商驚出一身冷汗的同時,也倒逼各供應商從技術與流程入手,更加努力為客戶提供一個更加穩定的服務。這對行業而言無疑是從教訓中長進。
青云QingCloud推出的真正多活Region架構服務,是良機也是挑戰!
關鍵詞:
相關閱讀
- 06-14
最近更新
- 06-14
- 06-14
- 06-14
- 06-13