26
2024
07
11:23:56

微软Azure Stack HCI的高可用性和灾难恢复

20213月,欧洲最大云服务和托管服务提供商OVH位于法国斯特拉斯堡数据中心被大火烧毁。火灾导致多个数据中心无法服务,大量客户网站瘫痪,部分客户数据完全丢失且无法恢复,其中游戏厂商 Rust 更是损失惨重,失去了欧洲所有服务器,数据全部丢失。
 

(图片来自 DataCenter Knowledge

    科学而全面的高可用架构,能够减少灾难导致业务影响和经济损失。比如Azure的可用性区域(Availability Zones),每个区域由一个或多个数据中心组成,这些数据中心配置了独立电源、冷却和网络。即便遇到火灾、制冷故障或断电,区域中可用性区域的物理隔离可以在发生数据中心故障的情况下保护应用程序和数据。区域冗余服务可跨可用性区域复制应用程序和数据,以防范单点故障。

    微软将Azure成熟的高可用架构应用到Azure Stack HCI,让用户在本地数据中心也可以获得类似Azure相似的弹性和高可用性。

什么是弹性和高可用性?

    超融合基础架构的核心是软件定义存储技术,微软采用存储空间直通(Storage Spaces  Direct,简称S2D)为数据提供容错,通常也成为弹性(resiliency),这非常类似阵列(RAID),但是分布在不同的服务器中,并通过软件定义技术实现。S2D常见的四种弹性类型,3向镜像是最常用的,与Azure LRS存储弹性一样,提供最佳的性能和可靠性

 

    就如前面提到Azure的高可用架构,微软超融合的容错可支持多个层面:节点,机箱,机柜,站点,实现类似云的可靠性,满足用户更高的可用性要求。

      我整理了一个表格方便大家了解AzureStack HCI容错域在高可用性上的差别。

      许多大型企业跨多个数据中心部署业务,不仅提供高可用性,而且还要支持灾难恢复(Disaster Recovery),并且达到《信息系统灾难恢复规范》GB/T20988—2007 国标的高等级要求。Azure Stack HCI具备了这样的能力,集成灾难恢复功能:延伸群集stretched cluster,可实现同城或异地的灾难恢复。

什么是延伸群集Stretched Cluster

    用于站点灾难恢复的Azure Stack HCI 延伸群集解决方案提供自动故障转移以快速恢复生产,无需手动干预。延伸群集基于存储副本(Storage Replica)技术,提供跨站点的卷复制以进行灾难恢复,同时所有服务器保持同步。

延伸群集基于以下几个组件和功能:
 

  • Azure Stack HCI OS:延伸群集可由4(2+2)到16(8+8)物理节点组成

  • 存储副本:实现群集之间卷复制,以实现灾难恢复

  • 实时迁移:Hyper-V虚拟机在线迁移到另一个主机,无需停机

  • 云见证:Azure Blob存储为群集仲裁提供投票

存储副本支持同步和异步复制:

  • 同步复制:在低延迟网络中跨站点创建数据镜像,以确保在发生故障时不会在文件系统级别上丢失任何数据。(网络要求:延迟低于5毫秒的高速网络)

  • 异步复制:通过较高延迟网络链接站点之间的数据,但不保证在出现故障时两个站点具有完全相同的数据副本。

    所以,同步复制对网络硬件条件要求较高,更适合同个数据中心、同个园区或者同城30公里以内的两个数据中心的场景。而异步复制更适合异地远距离的两个数据中心的场景。

    Azure Stack HCI支持两种类型的延伸群集:主动-被动和主动-主动。如下图,主-被复制是单向的,从主站点到辅助站点,辅助站点不提供任何角色或工作负载,等待主站点的故障转移以进行灾难恢复。主-主复制是双向复制,各自运行独立的工作负载,互为灾备。主站点故障会触发自动故障转移。为了防止潜在的数据丢失,在复制的卷完全同步之前,群集会阻止故障回复。

(主-主 和 主-被 两种模式)


    使用Windows Admin Center可以简化配置和管理,它提供图形化向导配置界面,可以快速指导用户完成延伸群集的配置。

(使用WAC创建同步复制的卷)

    在性能和安全上,新的Azure Stack HCI提升S2D卷修复速度4-5倍,提供自动重新同步,缩短重新同步持续事件,最大限度减少多个硬件故障发生的潜在影响。与一些列Azure服务集成,提供额外的弹性优势,可以将负载与Azure备份和Azure Site Recovery等Azure服务集成。存储副本提供内置安全性,包括数据包签名、AES-128全数据加密、支持Intel AES-NI加密加速等,还可以对数据卷进行Bilocker驱动器静态加密。


小提示:规划设计要考虑业务RPO/RTO以及信息系统灾难恢复的等级要求,同步复制保证“零”丢失对网络有较高要求,站点间建议采用10Gb及以上速度的RDMA连接。不同站点数据中心具有不同IP子网,要考虑虚拟机IP故障转移的规划。


    微软Azure Stack HCI 为用户本地数据中心提供了更强的性能,更高的可靠性,更严格的安全性。如果大家还想了解Azure Stack HCI哪些功能和技术内容,欢迎留言,我将收集大家反馈以准备新的文稿。




推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

本文链接:https://www.hqyman.cn/post/7258.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:
打赏





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

请先 登录 再评论,若不是会员请先 注册

您的IP地址是: