• 首頁 > 云計算頻道 > 云計算

    經驗沒有壓縮算法,揭秘亞馬遜云科技打造韌性云服務背后的工程思維

    2024年09月03日 16:31:37   來源:TechWeb

      近日,亞馬遜云科技大中華區(qū)解決方案架構總經理代聞在談及亞馬遜云科技云服務穩(wěn)定性、可靠性和韌性(應用程序抵御中斷或從中恢復的能力)方面的話題時表示,如同應縣木塔能屹立千年,背后涉及到“選址、架構、維護”等關鍵因素和環(huán)節(jié)一樣,保障云端服務的穩(wěn)定性和韌性同樣需要有這樣的工程思維。

      事實上,隨著各類應用程序深度進入人們的日常生活中,人們對在線應用的穩(wěn)定性要求就像空氣和水一樣自然——擁有時感受不明顯,一旦缺失卻會帶來極大嚴重后果。如何確保業(yè)務連續(xù)性,提升韌性,是企業(yè)需要解決的“基礎”而又“永恒”的問題。

      代聞表示,作為行業(yè)云服務的領先者,亞馬遜云科技自2006年發(fā)布第一款云服務至今,已提供了超過 240 種功能全面的服務,積淀了一套行之有效的提升云服務“韌性”的方法,包括設計、實踐、實施,工程經驗的積累等,希望分享給行業(yè),大家共同來促進企業(yè)業(yè)務的“韌性”發(fā)展。

      首先,由果導因,亞馬遜云科技將常見的系統(tǒng)故障的歸因進行了分類:

      基礎設施層——包括數據中心、主機、機架、網絡故障,或自然災害導致的損壞;

      架構設計層——數據狀態(tài)、應用程序狀態(tài)異常、依賴項失效等;

      運營機制層——由運維操作、代碼部署、配置錯誤等引起的故障。

      “亞馬遜云科技過去的18年里,在基礎設施的設計落地、系統(tǒng)架構的設計實施、運營機制的不斷的積累這三方面都做了非常多的工作。”代聞稱。

      基礎設施怎么建,韌性最好?

      亞馬遜云科技對基礎設施布局設計有一套嚴格標準。首先,分為區(qū)域(Region)和可用區(qū)(AZ):

      區(qū)域(Region),就是亞馬遜云科技在世界各地聚集數據中心的物理位置。

      可用區(qū)(AZ),是區(qū)域的下一級。亞馬遜云科技將每個邏輯數據中心組稱為可用區(qū),每個區(qū)域由三個或更多可用區(qū)組成。每個可用區(qū)又由多個或單個超大數據中心連接組成。

      每個可用區(qū)的數據中心都有獨立的電力、制冷和物理安全設施。

      可用區(qū)間的距離:同一區(qū)域內的可用區(qū)之間具有足夠的距離,一般在約100公里內。代聞介紹道:“這意味著一個可用區(qū)發(fā)生電力中斷,自然災害時,區(qū)域內其他可用區(qū)不會受到任何影響, 安全距離既能防止相關故障,又能實現單位毫秒級延遲的同步復制。“

      最后,在可用區(qū)內部、可用區(qū)之間、區(qū)域和區(qū)域之間,均鋪設光纖線路兩兩互聯(lián),實現高速數據傳輸的同時任一連接是冗余的。

      代聞以亞馬遜云科技在中國大陸的兩個區(qū)域為例對這種基礎設施設計進行了介紹:

      可用區(qū)內部:寧夏或北京區(qū)域的每個可用區(qū)內有多個數據中心,它們兩兩之間鋪設多條冗余鏈路互聯(lián),可用區(qū)內任何數據中心連接直達;

      可用區(qū)之間:寧夏或北京的每個可用區(qū)間由至少兩個的傳輸中心互聯(lián),任一可用區(qū)的任一數據中心均有多條冗余鏈路與傳輸中心互聯(lián),跨可用區(qū)的任意一個數據中心可通過傳輸中心互聯(lián);

      區(qū)域與區(qū)域互聯(lián):在寧夏和北京區(qū)域分別實現多層級互聯(lián)韌性保障之后,北京和寧夏之間通過冗余的連接中心站點和分布的冗余鏈路互聯(lián)。這些連接中心站點之間的大帶寬冗余鏈路形成亞馬遜云科技堅實的基建骨干網絡。

      代聞強調道:“這種保障韌性的冗余設計的投資是非常巨大的,但是為了能夠實現最高的可用性,亞馬遜云科技不會在任何的設計標準和實施的時候打折扣。”

      截至目前,亞馬遜云科技全球基礎設施遍及34個地理區(qū)域的108個可用區(qū)。

      有韌性的“系統(tǒng)架構設計”的基本思維是什么?

      代聞認為,對于系統(tǒng)架構設計來保障云服務的韌性,一個基本的思維是控制“失效的范圍”。

      亞馬遜云科技總結云服務自身韌性的四大要素:區(qū)域隔離,多可用區(qū);控制面和數據面獨立;單元架構;隨機分片。

      具體來看,

      一、 “區(qū)域隔離,多可用區(qū)”:根據故障隔離邊界,亞馬遜云科技將服務劃分為三種不同類別:可用區(qū)級、區(qū)域級和全球級,從而控制故障發(fā)生時對客戶的影響范圍。

      以全球級服務Amazon IAM為例,在全球級別的控制平面,IAM的增刪改邏輯和數據存儲架構被切分成細小的計算和存儲單元。這些分布式的數據細胞共同提供服務,通過單元細胞模型實現高可用且極小爆炸半徑,確保服務韌性。即便在極端情況下,全球控制平面和數據下發(fā)出現故障,影響范圍僅限于無法創(chuàng)建新的IAM信息。但每個區(qū)域的數據平面依然可以繼續(xù)穩(wěn)定提供本區(qū)域的認證授權服務。

      二、控制面和數據面獨立:亞馬遜云科技將服務拆分為控制平面和數據平面兩個層面。

      代聞介紹這樣設計出于兩個原因:

      其一,確保云服務的數據平面能夠獨立于控制平面的狀態(tài)持續(xù)穩(wěn)定運行。即使控制平面出現故障,數據平面也可以正常對外服務。系統(tǒng)的控制面往往由更多組件構成,因此從統(tǒng)計概率上講,它發(fā)生故障的可能性更高,但對于服務的可用性而言,數據平面的可用性比控制平面更為重要。對大多數客戶而言,Amazon EC2實例在啟動后的持續(xù)正常運行,比啟動新實例的能力更為關鍵。

      其二,獨立擴展互不影響。通常情況下,數據平面的運營容量和控制平面并不一致,數據平面要高于控制平面。隔離后,這兩個平面可以根據各自的需求進行獨立擴展。

      代聞補充解釋道:“控制面和數據面的隔離,類似于叫車軟件和打車,兩者其實是相對獨立的。當你坐上車以后,如果一段時間叫車軟件沒有信號無法響應了,也不影響司機將你送到預定的目的地。很多故障失效的情況關鍵在于沒有把數據面和控制面做到很好的隔離。”

      三、單元架構及隨機分片:單元架構設計的的核心思想是將整個系統(tǒng)分解為更小的獨立單元,當發(fā)生故障時,只有該單元受影響,而不會導致整個系統(tǒng)癱瘓。以數據庫為例,亞馬遜云科技為常規(guī)數據庫添加分片分區(qū)層,并在存儲和計算維度將整個系統(tǒng)分害成更小的單元,當發(fā)生故障時,無論硬件、網絡、電力系統(tǒng)還是代碼,都將影響最小化。同時,隨機分片可以進一步提高整個應用和系統(tǒng)的可用性。

      基于實踐總結的“運營機制”的建立

      “為確保云服務的韌性,卓越的運營和機制至關重要,也是亞馬遜云科技的差異化優(yōu)勢之一。”代聞強調。

      如亞馬遜CEO Andy Jassy所言,“經驗沒有壓縮算法”,經過18年的發(fā)展,目前,亞馬遜云科技的運營機制總結為4個模塊:服務責任模型、運營就緒審查、持續(xù)安全部署、糾錯流程。

      1.服務責任模型:采用服務所有權模型,激勵團隊不斷改進運營。工程和產品管理工作由小型、多學科團隊領導,并對其提供的服務擁有強大的所有權。這種所有權不僅要負責設計和啟動服務,還要在生產期間運營它,并在出現問題時隨叫隨到。

      2.運營就緒性審查:在發(fā)布和更新亞馬遜云科技服務之前,還需要使用運營就緒性審查(ORR)流程對所有新服務進行審查。發(fā)布團隊會回答一系列關于復原力以及其他已知最佳實踐的問題,并使用標準化的運行手冊來確保服務符合標準。服務部署后,每周舉行運營會議,檢查系統(tǒng)的運營性能以及任何懸而未決的問題。

      3.安全、持續(xù)部署:亞馬遜云科技進行服務更新或推出新服務時會使用安全、持續(xù)部署管道。通過使用廣泛的生產前測試、自動回滾和交錯生產部署,將自動化部署安全性構建到發(fā)布過程中,能夠最大限度地減少錯誤部署對生產造成的潛在影響。例如,服務的更新從小處開始。更新首先推出到AZ內的單個服務器,并經過指定的等待期來驗證沒有出現問題。隨后更新部署到整個AZ的其余部分,然后部署到其他AZ,然后部署到單個區(qū)域,最后部署到其余區(qū)域。

      4.糾錯流程:出現任何問題會利用糾錯(COE)流程等事件管理機制來幫助團隊了解根本原因。在問題得到緩解后推動全公司的工程沖刺,以確保該問題在所有服務中得到解決,這減少了未來類似事件影響另一個服務的可能性。這些學習被記錄下來,并成為ORR過程的一部分,這確保了類似的問題不會再次發(fā)生。

      另外,為了幫助客戶更輕松地提升云中應用的韌性,亞馬遜云科技基于自身以及多年服務客戶的廣泛經驗,總結了一套包含了服務、策略和架構最佳實踐的“韌性系統(tǒng)建設生命周期框架”。該框架包含五個階段:設定目標、設計和實施、驗證和測試、持續(xù)運營以及響應和改進。同時,亞馬遜云科技在每個階段都為客戶提供了適用的工具和服務。

      2022 年,奇瑞捷豹路虎選擇將關鍵的 SAP 系統(tǒng)遷移至亞馬遜云科技云上,成功地邁出了數字化轉型的關鍵一步。通過將 SAP 系統(tǒng)所有模塊平移上云,奇瑞捷豹路虎的業(yè)務敏捷性、人員工作效率大幅提升。其中,利用亞馬遜云科技獨有的一個區(qū)域三個可用區(qū)特性,并在亞馬遜云科技特有的自適應跨可用區(qū)高可用集群進行整體切換基礎上,創(chuàng)新性提出高可用和同城災備融合方案,使用云上三個可用區(qū)及引入仲裁方案使集群可靠性、穩(wěn)定性得到增強,最大限度地減少了停機時間和保障零數據丟失,故障切換時間從半小時縮短至 3 分鐘。

      “構建韌性是一個持續(xù)的過程,而不是一次性的努力”,代聞強調道,“亞馬遜云科技每天穩(wěn)定啟動的Amazon EC2實例超過1億,每秒 API請求數高達100萬億。正是因為做對了很多事情,才有今天全球數百萬客戶的選擇和信任。”

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    即時

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。