📦 Disaster Risk Assessment — 灾难风险评估
v1.0.0使用该技能对系统或组织进行灾难风险评估,执行结构化风险分析,识别需要防范的灾难类型,构建量化的优先级风险登记册,量化故障场景的概率和影响。适用于灾难规划、事件响应准备和风险监控场景。
详细分析 ▾
运行时依赖
版本
- 灾难风险评估技能的首次发布。 - 使用概率×影响矩阵跨7种灾难类型和3个主要主题生成量化的优先级风险登记册。 - 包括18+个预置的灾难场景,涵盖环境、基础设施可靠性和安全风险。 - 提供结构化流程来收集输入、评分风险和审查异常值。 - 支持灾难规划、事件响应准备和风险监控等用例,适用于全球和每个站点上下文。
安装命令
点击复制技能文档
使用定量概率×影响矩阵生成评分且优先排序的风险登记册。涵盖3个主题(环境、基础设施可靠性、安全)下的7种灾难类型,包含18+个预置场景。输出用于响应计划优先级排序、事件响应团队范围界定和灾难恢复测试选择。
何时使用
- 为新系统或现有系统开始灾难规划
- 为灾难恢复测试或桌面演练做准备
- 界定事件响应团队的章程和覆盖范围
- 评估基础设施变更(新数据中心、云迁移)如何改变风险敞口
- 为多地点组织进行每个站点的风险审查
- 在组织或威胁环境发生重大变化后重新评估之前
前置条件: 了解您系统的架构及其关键依赖(网络、认证、存储、第三方服务)。风险评级的质量取决于其背后的系统清单。
背景和输入收集
在评分之前,建立三个输入:
1. 带关键性分类的系统清单
将风险可能影响的每个系统分类为三个层级之一。此分类决定给定灾难对运营的实际影响程度。
| 层级 | 标签 | 定义 |
|---|---|---|
| 1 | 关键业务 | 缺失导致完全运营中断。组织无法运作。 |
| 2 | 重要业务 | 缺失显著降低运营但不会使其停止。 |
| 3 | 非必要 | 缺失影响最小。可容忍停机。 |
2. 地理和基础设施背景
风险评级依赖于位置。洛杉矶的站点比汉堡的站点需要更高的地震概率。 美国东南部的站点需要更高的飓风概率。单ISP设施比有多路冗余电路的站点需要更高的互联网连接丢失概率。
收集:
- 物理数据中心位置
- 现有容错控制(冗余电源、冗余ISP、UPS、发电机)
- 此站点或此区域的已知历史事件
3. 范围边界
决定您是在组织级别(全球)还是按站点进行评估。大型组织应该两者都做——仅托管3级系统的站点与托管1级系统的站点需要不同的响应计划。
流程
第1步 — 从预置的风险分类开始
Building Secure and Reliable Systems 附录A中的矩阵将灾难场景分为三个主题。使用这些作为起点,而不是空列表。预置场景可以防止遗漏不明显风险的常见失败模式(例如,新出现的零日漏洞、内部人员窃取知识产权)。
环境主题(影响物理基础设施的自然事件)
- 地震
- 洪水
- 火灾
- 飓风/强风暴
基础设施可靠性主题(组件和服务故障)
- 停电
- 互联网连接丢失
- 认证系统宕机
- 高系统延迟/基础设施放缓
安全主题(对抗性和漏洞驱动的事件)
- 系统被入侵(外部攻击者获得未授权访问)
- 内部人员窃取知识产权
- 分布式拒绝服务(DDoS)/拒绝服务(DoS)攻击
- 滥用系统资源(例如,加密货币挖矿)
- 故意破坏/网站篡改
- 网络钓鱼攻击
- 软件安全漏洞
- 硬件安全漏洞
- 新出现的严重漏洞(例如,Meltdown/Spectre、Heartbleed级别)
在此列表之外添加组织特定的场景。示例:针对备份系统的勒索软件、构建管道的供应链妥协、要求紧急数据删除的监管行动。
第2步 — 使用P×I量表对每个场景评分
对于每个场景,独立分配两个值,然后计算排名。
一年内发生的概率(P)
| 值 | 标签 |
|---|---|
| 0.0 | 几乎不会 |
| 0.2 | 不太可能 |
| 0.4 | 有点不可能 |
| 0.6 | 可能 |
| 0.8 | 极有可能 |
| 1.0 | 不可避免 |
风险发生时的组织影响(I)
| 值 | 标签 |
|---|---|
| 0.0 | 可忽略 |
| 0.2 | 轻微 |
| 0.5 | 中等 |
| 0.8 | 严重 |
| 1.0 | 关键 |
排名 = 概率 × 影响
停电评分为P=0.6,I=0.8产生排名=0.48。飓风P=0.2,I=1.0产生排名=0.20。将完成的登记册从最高到最低排名排序。
第3步 — 填充风险登记册
每个场景创建一行。最小列:
| 主题 | 风险 | 概率(P) | 影响(I) | 排名(P×I) | 受影响系统 | 层级 |
|---|---|---|---|---|---|---|
| 环境 | 地震 | — | — | — | — | — |
| 环境 | 洪水 | — | — | — | — | — |
| 环境 | 火灾 | — | — | — | — | — |
| 环境 | 飓风 | — | — | — | — | — |
| 基础设施可靠性 | 停电 | — | — | — | — | — |
| 基础设施可靠性 | 互联网连接丢失 | — | — | — | — | — |
| 基础设施可靠性 | 认证系统宕机 | — | — | — | — | — |
| 基础设施可靠性 | 高系统延迟/基础设施放缓 | — | — | — | — | — |
| 安全 | 系统被入侵 | — | — | — | — | — |
| 安全 | 内部人员窃取知识产权 | — | — | — | — | — |
| 安全 | DDoS/DoS攻击 | — | — | — | — | — |
| 安全 | 滥用系统资源 | — | — | — | — | — |
| 安全 | 故意破坏/网站篡改 | — | — | — | — | — |
| 安全 | 网络钓鱼攻击 | — | — | — | — | — |
| 安全 | 软件安全漏洞 | — | — | — | — | — |
| 安全 | 硬件安全漏洞 | — | — | — | — | — |
| 安全 | 新出现的严重漏洞 | — | — | — | — | — |
第4步 — 在定稿前审查异常值
按排名排序是一个起始启发式方法,不是最终答案。执行手动异常值审查:
- 低概率、高影响异常值: 排名0.10(P=0.1,I=1.0)的场景可能仍然需要响应计划,因为后果是灾难性的。无论排名如何,标记任何I=1.0的场景。
- 隐藏依赖: 看似低影响的风险如果禁用了其他事件响应所依赖的监控系统或日志系统,可能会变得关键。
- 相关风险: 地震可能同时引发停电、连接丢失和火灾。评估场景是否聚集在一起,以及组合影响是否超过个人排名。
- 专家审查: 征求团队外人员的审查,他们可以识别具有隐藏因素或依赖的风险。群体思维往往低估不熟悉的场景。
第5步 — 记录范围、假设和审查节奏
与登记册一起记录:
- 评估日期
- 评估的地点
- 假设的现有控制(例如,"假设有冗余ISP、UPS和柴油发电机")
- 负责下次审查的所有者
- 计划的审查节奏(最低:每年;建议:任何重大基础设施变更或事件后)
关键原则
量化对抗群体思维。 直觉风险评估倾向于对突出场景(近期新闻事件、令人难忘的险情)加权,而非统计上更可能的场景。评分矩阵强制明确的概率和影响估计,使看不见的假设可见且可争辩。
概率依赖于基础设施,而非普遍。 具有多区域故障转移的云托管系统与单点本地部署具有不同的认证系统宕机概率。在考虑现有控制后评分——但也要模拟控制失败时会发生什么。
评级必须随系统演变。 当组织添加冗余互联网电路、迁移到不同的云区域或发现新的漏洞类别时,风险态势会发生变化。安排审查;不要将登记册视为一次性产物。
低概率不意味着没有计划。 I=0.8或I=1.0的场景即使排名很低也需要响应计划。排名指导首先在哪里投入准备精力,而不是忽略哪些风险。
与主要系统一起评估依赖。 关键运营功能包括其底层依赖——网络、认证、应用层组件。依赖于3级认证系统的关键业务服务在事件期间实际上将该依赖提升到1级。
多地点组织需要按站点评估。 全球排名掩盖了特定站点的敞口。地震多发地区的站点与环境风险与总部不同。按站点运行矩阵并汇总。
示例
示例:SaaS公司,单个美国西海岸数据中心,无冗余电源
| 主题 | 风险 | P | I | 排名 | 受影响系统 |
|---|---|---|---|---|---|
| 安全 | 系统被入侵 | 0.6 | 1.0 | 0.60 | 认证服务(T1)、API(T1) |
| 基础设施 | 停电 | 0.6 | 0.8 | 0.48 | 所有系统 |
| 安全 | 软件安全漏洞 | 0.6 | 0.8 | 0.48 | API(T1) |
| 安全 | 网络钓鱼攻击 | 0.8 | 0.5 | 0.40 | 邮件(T2)、SSO(T1) |
| 基础设施 | 互联网连接丢失 | 0.4 | 1.0 | 0.40 | 所有面向外部的(T1) |
| 安全 | DDoS/DoS攻击 | 0.4 | 0.8 | 0.32 | API(T1) |
| 环境 | 地震 | 0.4 | 0.8 | 0.32 | 所有系统 |
| 安全 | 新出现的严重漏洞 | 0.2 | 1.0 | 0.20 | 所有系统 |
| 环境 | 洪水 | 0.2 | 0.5 | 0.10 | 本地设备(T2) |
示例:调整现有控制
添加备份ISP后:互联网连接丢失从P=0.4降至P=0.2,排名从0.40降至0.20。 添加UPS和发电机后:停电从P=0.6降至P=0.2,排名从0.48降至0.16。 控制更改时重新运行矩阵以确认优先级仍然有效。
参考资料
- Building Secure and Reliable Systems(Blank、Oprea等,Google/O'Reilly,2020)
- 第16章“灾难规划”——第363-382页:灾难类型分类(第364页)、灾难风险分析方法(第366页)、系统关键性分类(第366页)、动态响应策略阶段(第365页)
- 附录A“灾难风险评估矩阵”——第499-500页:表A-1包含完整概率量表、影响量表、预置场景分类和排名=P×I公式
- 完成登记册后的后续步骤:事件响应团队设置(第16章,第367-375页)、响应计划开发(第371-373页)、灾难恢复测试规划(第376-382页)
许可证
本技能根据 CC-BY-SA-4.0 许可。 来源:BookForge — Building Secure And Reliable Systems by Unknown。
相关BookForge技能
本技能是独立的。浏览更多BookForge技能:bookforge-skills