和一智能科技
2022-01-18 16:08:25

改善数据中心风险管理的 3 个步骤

分享到:

改善数据中心风险管理的 3 个步骤(图1)

五年前,随着云计算的兴起,一些 IT 传播者、CIO 和大型科技研究公司预言了我们所知道的数据中心即将消亡。我当时在 CIO.com 的共同专栏作家 Mark Settle建议在注销数据中心时要谨慎,并设想它们将如何根据数据的演变(您猜对了)继续增长。

今天,数据中心不仅继续生存,而且与混合和多云系统一起在新的化身中蓬勃发展,例如本地即服务不仅如此,数据中心还准备满足对边缘计算、物联网和 5G 等新兴技术相关服务的新兴需求。

由于最终用户计算 (EUC) 和移动解决方案中的这些新应用和新兴需求,数据中心变得越来越复杂,从而导致更多的内部和外部风险。停机是一种持续存在的风险,单个事件的损失高达每分钟 11,000 美元。

以下是企业可以采取哪些措施来识别和降低数据中心运营中的风险。

1. 采用综合方法进行风险管理

事实证明,2021 年 2 月德克萨斯州创纪录的冬季风暴和随后的停电是对该州数据中心的一次现实检验。尽管没有发生大规模故障,但电气故障转移系统存在重大问题。

从功能的角度来看,数据中心是运行关键业务应用程序的物理设施,而从业务的角度来看,它们是需要进行预算和管理的不动产或资本资产。

关键是,单点故障可能(并且经常会)对运营造成巨大破坏,从而导致收入损失。这就是为什么您需要适用于整个组织的普遍风险管理计划和政策。

这就是集成风险管理 (IRM) 的用武之地。Gartner 将 IRM 定义为“由风险意识文化和支持技术支持的一组实践和流程,这些实践和流程通过对组织管理其自身情况的综合视图来改进决策制定和绩效。一组独特的风险。”

在大流行后的世界中,实施远程工作、BYOD、CYOD 和其他工作场所实践变化的企业正在将其数字化转型战略与 IT 基础设施升级相结合,以识别、容忍和减轻自然灾害、供应链、数据处理带来的风险,以及他们的商业模式所固有的那些。

如果您正在进行数字化转型,则需要监控可能影响数据中心的每个流程和因素(外部或内部),并准备好应对由同时发生的单个或多个事件引起的多种风险。

数字化转型不仅适用于大量依赖数据或技术的企业或组织,它同样适用于大流行后工作场所的中小型企业,包括那些开始使用公共云作为数据中心替代品的企业。

甚至联邦政府也在认真对待数字化转型——改造数据中心基础设施以利用云技术是他们的两个核心目标之一(改善在线用户体验是另一个目标)。

“数据中心优化是《联邦信息技术采购改革法案》中记分卡的关键衡量标准。这种衡量在一定程度上反映了机构基础设施对云的利用程度,”数字转型专家Jeff Shupack 说,他在通过精益敏捷实施降低全球资本计划风险方面拥有 15 年的实践经验。

组织正在意识到敏捷方法、大数据分析、移动解决方案和 DevOps 与可靠和升级的数据中心协同工作,以实现有效的风险预防、充分的风险响应和快速的灾难恢复。因此,他们正在转向能够在混合 IT 基础架构中实施这些最佳实践的框架,以确保业务连续性、降低 OPEX 并改善数字客户体验。

2. 了解您的风险

无论您的风险管理计划多么全面,它的发展速度永远不会超过技术。新技术和新的工作实践正在创造比以往更多的复杂性。让我们快速了解一下数据中心面临的不同类型的风险。

IT 安全性不足

可以说是当今数据中心面临的最大风险,网络安全漏洞的范围从 DoS 攻击到社会工程再到数据盗窃。2021 年的平均数据泄露成本为 424 万美元,是 17 年来的最高水平。

应用程序和系统故障也会对物理安全方面产生影响,导致身份证无法验证、闭路电视连接丢失或授权人员被拒绝进入某些区域的情况。

系统错误

如果没有弹性架构和连续、冗余和高带宽的连接,数据中心注定要失败。服务器、网络设备和相关设备都需要集群、镜像和复制等功能,以减少停机机会。

有时应用程序或软件(例如管理程序)会启动并关闭整个服务器或网络。您需要确保所有应用程序在混合基础架构中无缝运行,并与云原生应用程序通信。

电源(检测)失败

尽管极为罕见,但电力故障可能而且确实会发生——主要是自然灾害的结果。您需要为数据中心的所有机架和冷却系统提供 UPS 或发电机支持的电源路径。与多变电站电网的直接连接有助于对冲本地变电站的停电。

漏水

洪水或渗水可能会给数据中心设备带来厄运。然而,维护良好的水路和排水系统对于消防和冷却系统至关重要。

高分贝噪音

数据中心面临的一个鲜为人知但重大的风险是长时间暴露于响亮的高频声音振动中,这会降低存储系统的效率,降低读/写性能,并最终影响数据完整性。数据中心应远离竞技场、消防站、机场等,并安置在使用消声技术的建筑物内。

电力峰值和短路是数据中心火灾的常见原因。如果不迅速控制,火灾可能会在几分钟内烧毁价值数千美元的硬件。具有讽刺意味的是,空调和冷却系统会消散烟雾,使早期发现火灾变得更加困难。使用带有光电传感器的烟雾探测系统持续监测数据中心的空气中是否有烟雾迹象。

灾难恢复计划不佳

虽然如今数据备份是一个非常简单的过程,但出于安全和性能方面的考虑,数据中心比公共云更受欢迎——您希望在系统发生故障时立即恢复事务数据。

当然,这取决于诸如业务性质和其所属的监管框架等因素。更有理由为每个不同的故障事件制定明确的恢复计划;同样适用于计算、存储或网络资源。

最先发制人的灾难恢复计划都有监控系统,可以跟踪影响数据中心的风险因素,并在超过关键阈值时发出警报。

3. 在管理风险之前评估风险

所有的风险——比如企业——都不是平等的。虽然数据中心面临着自己独特的风险,尤其是对于不同的垂直行业,但您最终使用的风险缓解技术不一定要针对数据中心环境量身定制。

因此,您需要一个风险管理计划,列出您的数据中心面临的所有可想象的风险,并指定对每种类型事件的响应。在它发生之前。

首先进行风险审计——对您拥有和运营的所有设施进行全面评估。评估影响设施设计、IT 基础设施和运营流程的因素。

如果过去发生过重大事件或中断,请进行根本原因分析(如果仍然可能)以解决您未涵盖的任何差距。您可以做些什么来确保在类似情况下不会再次出现停机?

此外,如果您运行具有多个数据中心和云系统的混合架构,请单独审核每个架构以及它们之间的数据路径和连接。

如果您在金融和医疗保健等高度监管的行业运营,则需要将定期数据中心风险评估和灾难测试作为日常运营的一部分。

与其他一切一样,创建框架、政策或备忘单(至少)可以提供适用于您的风险类别、每个类别影响的系统、估计的损害和恢复成本以及发生事故或灾难时应遵循的协议。

例如,IT 咨询公司 Capgemini 采用一种不断发展的风险管理方法来识别和量化风险及其缓解成本。“我们已经建立了一个月度风险管理系统,记录所有风险和问题以及遏制和行动计划。如果需要更改,我们会提供投资预算,”凯捷高级交付中心经理Kevin Read 说。

消除停机时间

数据中心——甚至是公司的整个 IT 基础设施——永远不会孤立运行。有无数的组件和因素可以让数据中心全天候运行。

使用 IT 基础设施缓解风险是共同的责任,而不仅仅是 CIO 或 CTO。您需要有足够数量的 IT 员工接受过培训,并且愿意尽其所能来保持数据中心运营的领先地位。

Tenable 产品营销副总裁Gavin Millard给您的建议是:“冲突的目标可能很难解决,但最有效的方法之一是拥有一个高效的流程来持续识别风险所在。您还需要一种可预测、可靠的系统更新方法,而不会影响组织的总体业务目标。”


上一篇:IT 外包:最大限度地提高灵活性和控制力
下一篇:回顾展望未来:预测 2022 年的网络安全格局