混沌工程｜ Chaos Engineering

混沌工程｜ Chaos Engineering
- 另请参阅：
- 关于混沌工程的问题吗？

（又名混沌测试）混沌工程通过引入随机故障和中断来测试软件的弹性。该方法以不可预测的方式对应用程序提出挑战，旨在发现未预料到的缺陷和弱点。

另请参阅：

维基百科

关于混沌工程的问题吗？

基础知识和重要性

什么是混沌工程？

混沌工程（又名混沌测试）是一种主动测试规程，涉及通过引入湍流条件或意外事件来对系统进行实验，以观察系统如何响应并识别弱点。与通常关注预期路径和受控环境的传统测试不同，混沌工程测试系统承受生产中可能出现的动荡条件的能力。这是一种在面对服务器崩溃、网络故障和不可预测的流量模式等现实事件时验证系统可靠性的方法。通过以受控方式有意注入故障，工程师可以发现标准测试环境中找不到的问题。混沌实验通常最初是小规模进行的，并随着对系统弹性的信心的增长而扩大。该实践与 DevOps 和 持续交付 实践密切相关，因为它可以集成到 CI/CD 管道中，以确保持续测试弹性。为了有效地执行混沌工程，工程师使用各种旨在编排和管理实验的工具。这些工具有助于定义范围、执行测试和分析结果，以提高系统的稳健性。混沌工程成功的关键是系统方法，从明确的假设开始，然后进行精心策划的实验，最后对结果进行彻底分析，为系统改进提供信息。这是一个持续的过程，有助于建立对系统优雅处理意外中断能力的信心。

为什么混沌工程在软件开发中很重要？

混沌工程在软件开发中至关重要，可以预测不可预测的故障并确保系统能够承受意外中断。与通常假设稳定环境的传统测试不同，混沌工程承认现实世界的条件是多变的，而且常常是动荡的。通过有意将错误注入系统，开发人员可以在弱点成为生产中的关键问题之前识别出弱点。随着系统变得更加复杂和分布式，这种做法尤其重要。在这种环境中，组件之间的交互可能会导致无法预见的问题，而这些问题很难用标准测试方法检测到。混沌工程允许团队主动探索并减轻这些复杂的故障模式。此外，它还鼓励开发人员在设计系统时考虑到故障，从而支持可靠性文化，从而形成更健壮的架构并更好地处理潜在的中断。这对于维护用户信任和确保业务连续性至关重要，特别是对于需要高可用性的服务。通过将混沌工程集成到开发生命周期中，团队可以持续测试和提高系统的弹性。这种集成有助于以经济高效的方式维持高标准的质量和可靠性，最终带来更加稳定和值得信赖的软件产品。

混沌工程的关键原则是什么？

混沌工程以指导其实践的一些关键原则为基础：

围绕稳态行为建立假设：定义正常操作的样子以有效测量偏差。
改变现实世界事件：引入模仿现实世界事件的变化，以了解不可预见的干扰如何影响系统。
在生产中运行实验：为了获得最准确的结果，请在反映实时用户活动的环境中进行实验。
自动化实验以持续运行：自动化可确保系统针对潜在故障不断进行测试，从而提高弹性。
最小化爆炸半径：从尽可能小的实验开始，以限制对系统和用户的影响。
从实验中学习：记录结果并根据从每个实验中获得的见解实施改进。这些原则旨在主动识别和缓解系统弱点，确保系统能够承受动荡的条件，而不会显着降低服务质量。

混沌工程如何提高系统弹性？

混沌工程通过主动将故障引入系统来测试它们如何承受意外情况，从而增强系统的弹性。通过这样做，它可以在出现中断之前发现弱点。这种方法允许团队：

识别故障点：发现系统可能出现故障的区域使工程师能够在问题影响用户之前解决问题。
验证假设：测试系统在压力下的行为，验证冗余和故障转移机制是否按预期工作。
改进监控：通过跟踪系统对混沌实验的响应，团队可以微调监控工具以尽早发现问题。
制定稳健的恢复程序：在受控环境中经历故障有助于团队制定有效的恢复计划。
建立信心：了解系统可以处理混乱事件可以增加对其稳定性和性能的信心。混沌工程通过确保系统针对真实场景进行实战测试，超越了传统测试的限制，从而形成更具弹性的基础设施。

混沌工程与传统测试方法有什么区别？

混沌工程与传统测试方法的不同之处在于其方法和范围。传统测试（例如单元测试、集成测试和系统测试）侧重于预期行为和已知故障模式。它验证软件在受控条件下按设计工作。这些测试是确定性的，具有预定义的输入和预期的输出。相比之下，混沌工程是一种主动和实验性方法，用于测试系统承受不可预测和动荡条件的能力。它故意将故障注入系统，以评估其弹性以及在发生故障时维持功能的能力。该方法承认复杂系统可能会以意想不到的方式运行，并且并非所有故障模式都可以预见。虽然传统测试通常在部署前在临时环境中进行，但混沌工程通常在生产中执行，以在实际条件下测试系统。这种环境的转变至关重要，因为它使软件面临全方位的潜在压力源和交互，而这些在测试环境中是无法复制的。此外，传统测试的目的是在故障发生之前预防故障，而混沌工程则假设故障是不可避免的，并侧重于提高恢复和最小化影响。目标是在导致中断或数据丢失之前识别出弱点，从而增强系统的整体弹性。总之，混沌工程通过引入不可预测性元素并测试系统在不利条件下的行为来补充传统测试，这超出了传统测试用例的范围。

执行

混沌工程是如何在系统中实施的？

混沌工程是通过一系列受控实验来实现的，旨在评估系统在意外条件下的行为方式。实施过程通常遵循以下步骤：

定义“稳态”指标反映系统的正常行为。
假设系统在受控和混沌条件下都将保持这种稳定状态。
引入变量反映现实世界的事件，例如服务器崩溃、网络延迟或资源耗尽。
运行实验在受控环境中，从尽可能小的范围开始，逐步升级。
观察系统对这些中断的响应，使用监控和记录工具来收集数据。
分析结果以确定弱点并提高系统的弹性。工程师使用 Chaos Monkey、Gremlin 或 Litmus 等自动化工具来引入混乱。这些工具可以集成到 CI/CD 管道中，作为部署过程的一部分定期测试系统的弹性。

  // Example of a simple chaos experiment using Pseudocode
  chaosExperiment.begin()
  if (chaosExperiment.isSteadyState()) {
      chaosExperiment.introduceVariable('networkLatency', 3000)
      assert(chaosExperiment.isSteadyState())
  }
  chaosExperiment.end()

自动回滚机制对于降低风险至关重要，确保可以快速扭转任何负面影响。 实验后审查对于记录结果和计划改进至关重要。实施混沌工程需要文化转变，将失败视为学习机会并主动测试它们。

定义“稳态”指标反映系统的正常行为。
假设系统在受控和混沌条件下都将保持这种稳定状态。
引入变量反映现实世界的事件，例如服务器崩溃、网络延迟或资源耗尽。
运行实验在受控环境中，从尽可能小的范围开始，逐步升级。
观察系统对这些中断的响应，使用监控和记录工具来收集数据。
分析结果以确定弱点并提高系统的弹性。

混沌实验涉及哪些步骤？

要进行混沌实验，请按照下列步骤操作：

定义假设：确定当您向系统引入混乱时预期会发生什么。
选择变量：选择您要操作的变量，例如网络延迟或服务器故障。
设计实验：计划如何引入混乱，包括要使用的工具和方法。
设置监控：确保监控到位，以观察混乱对系统的影响。
基线指标：收集基线指标进行比较，以了解系统在正常条件下的行为。
在分期中运行实验：在与生产非常相似的受控环境中执行混沌实验。
分析结果：将结果与您的假设和基线指标进行比较，以确定混乱的影响。
计划修复：识别弱点并计划行动以提高系统弹性。
应用修复：实施必要的更改以缓解发现的问题。
重复实验：重新运行实验以验证修复是否提高了系统弹性。
毕业到生产：一旦对登台环境充满信心，就谨慎地将混沌实验引入生产环境。
记录结果：记录实验细节、观察结果和补救步骤以供将来参考。
沟通结果：与团队分享结果以传播意识和知识。请记住在混沌实验期间始终优先考虑安全并尽量减少对用户的潜在影响。

混沌工程中常用的工具有哪些？

混沌工程 中常用的工具包括：

Chaos Monkey：Netflix Simian Army 的一部分，它随机终止虚拟机实例和容器以测试系统弹性。
Gremlin：提供跨堆栈各个级别的全套混沌实验。
混沌工具包：一个开源框架，允许您创建自己的混沌实验。
Litmus：Kubernetes 的工具集，为云原生环境提供混沌实验。
Pumba：Docker环境的混沌测试工具，可以模拟容器故障和网络问题。
Chaos Mesh：一个云原生混沌工程平台，可在 Kubernetes 环境中协调混沌。
PowerfulSeal ：受到 Chaos Monkey 的启发，它针对 Kubernetes 集群，可以杀死特定的 pod 或机器。
ToxiProxy：模拟延迟、带宽限制和中断等网络条件，以测试应用程序的弹性。这些工具有助于自动化引入故障和观察系统如何响应的过程，从而使工程师能够识别并修复弱点。

如何确定混沌实验的范围？

确定混沌实验的范围涉及识别系统的关键组件，这些组件如果受到干扰，可能会导致重大问题。首先分析系统的架构，以查明对于操作至关重要的服务和基础设施元素。考虑以下因素：

用户影响：重点关注失败后会影响用户体验的领域。
服务依赖关系：识别具有多个依赖关系的服务，这些依赖关系可能会导致级联故障。
过去的事件：查看过去出现问题的组件的历史数据。
更改频率：经常更新的组件可能更容易出现故障，值得测试。
业务重要性：优先对对业务运营至关重要的系统部分进行实验。确定潜在目标后，定义实验的爆炸半径和幅度。爆炸半径是指受影响系统的范围，而震级则是破坏的强度。从小规模开始，以最大限度地降低风险，并随着您对系统弹性的信心而逐渐增加。使用风险评估来权衡实验的潜在收益和风险。确保您有后备计划和监控，以快速检测和响应意外问题。请记住，目标是了解系统并提高其弹性，而不是造成不必要的中断。仔细确定范围可确保混沌实验以最小的干扰提供有价值的见解。

常见的混沌工程实践有哪些？

常见的混沌工程做法包括：

基线测试 ：建立正常条件下的性能和行为基线，以便与混沌实验期间进行比较。
故障注入：引入各种类型的故障（例如服务器崩溃、网络延迟）来测试系统响应和恢复过程。
黑洞测试：模拟网络分区以确保微服务可以处理连接丢失。
资源操作：更改 CPU、内存和磁盘空间等系统资源，以验证资源限制下的系统行为。
状态转换测试 ：强制状态转换（例如集群中的领导者选举）以验证系统处理状态变化的能力。
用户行为模拟：大规模模仿用户操作，以测试系统如何应对变化和不可预测的用户负载。
依赖测试 ：禁用对第三方服务或数据库的依赖以检查正确的回退机制。
Chaos Monkey：随机终止生产中的实例，以确保系统能够承受任何单个实例的损失。
比赛日：组织计划好的活动，团队在受控环境中练习响应模拟事件。
混沌自动化：将混沌实验集成到 CI/CD 管道中以进行持续弹性测试。这些实践通常以受控方式执行，并制定仔细的监控和回滚计划，以尽量减少对生产系统的影响。

挑战和解决方案

实施混沌工程有哪些潜在挑战？

实施混沌工程可能会带来一些挑战：

系统的复杂性：现代系统通常是复杂且分布式的，因此很难预测它们对注入故障的反应。
文化阻力：团队可能会抵制采用故意将故障引入系统的做法，担心这可能会导致真正的中断或影响性能。
资源分配：混沌实验需要资源，包括基础设施和人员来设计、执行和分析结果。
定义成功指标：建立明确的成功指标可能具有挑战性，因为混沌工程的好处有时是间接的或长期的。
范围管理：确定适当的实验范围以确保它们有意义而又不会造成太大的破坏，这是一种微妙的平衡。
生产平价：确保测试环境密切反映生产对于有意义的实验至关重要，但可能很难实现。
事件响应：团队必须准备好响应实验期间发现的问题，这需要强大的事件管理流程。
知识和专业知识：了解如何有效地设计和解释混沌实验有一个学习曲线。
与现有流程集成：将混沌工程集成到现有 CI/CD 管道和工作流程中可能很复杂，并且可能需要对当前流程进行重大更改。
监控和可观察性：充分的监控对于观察混沌实验的效果至关重要，但实现深度可观察性可能具有挑战性。
风险管理：平衡潜在中断的风险与提高弹性的好处至关重要，需要仔细规划和执行。
系统的复杂性：现代系统通常是复杂且分布式的，因此很难预测它们对注入故障的反应。
文化阻力：团队可能会抵制采用故意将故障引入系统的做法，担心这可能会导致真正的中断或影响性能。
资源分配：混沌实验需要资源，包括基础设施和人员来设计、执行和分析结果。
定义成功指标：建立明确的成功指标可能具有挑战性，因为混沌工程的好处有时是间接的或长期的。
范围管理：确定适当的实验范围以确保它们有意义而又不会造成太大的破坏，这是一种微妙的平衡。
生产平价：确保测试环境密切反映生产对于有意义的实验至关重要，但可能很难实现。
事件响应：团队必须准备好响应实验期间发现的问题，这需要强大的事件管理流程。
知识和专业知识：了解如何有效地设计和解释混沌实验有一个学习曲线。
与现有流程集成：将混沌工程集成到现有 CI/CD 管道和工作流程可能很复杂，并且可能需要对当前流程进行重大更改。
监控和可观察性：充分的监控对于观察混沌实验的效果至关重要，但实现深度可观察性可能具有挑战性。
风险管理：平衡潜在中断的风险与提高弹性的好处至关重要，需要仔细规划和执行。

如何降低与混沌工程相关的风险？

降低混沌工程中的风险需要仔细规划和受控执行。以下是一些策略：

从小处开始：从破坏性最小的实验开始，以了解系统的行为并逐渐增加严重性。
定义明确的目标：确保每个实验都有特定的目标并了解您要学习的内容。
使用终止开关：实施一种机制，如果实验开始造成不可接受的破坏程度，则立即停止实验。
密切监控系统：进行实时监控和警报，以快速检测任何意外后果。
沟通：让所有利益相关者了解计划的实验、潜在影响和发现。
记录一切：维护实验、观察和补救步骤的详细记录，以便从每次测试中学习。
自动化保障：使用自动化来实施安全约束并防止实验超出预定义的阈值。
限制爆炸半径：将实验限制在尽可能小的区域，以限制对用户和服务的影响。
在非高峰时段运行实验：在发生故障时受影响的用户较少时安排实验。
建立韧性文化：鼓励一种心态，将失败视为学习和改进系统的机会。通过遵循这些策略，您可以降低与混沌工程相关的风险，同时仍然获得其好处。

如何衡量混沌实验的成功？

衡量混沌实验的成功涉及评估直接和间接结果。成功不仅仅是造成失败，而是从破坏中吸取教训，增强系统的弹性。关键指标包括：

平均检测时间 (MTTD)：系统检测问题的速度。
平均恢复时间 (MTTR)：发生故障后恢复服务所需的时间。
失败率：导致意外系统行为或中断的实验的百分比。
系统性能：实验期间延迟、吞吐量和错误率的变化。
爆炸半径：实验造成的影响程度。
弹性改进：实验后增强系统的稳健性。使用以下内容进行评估：

  // Example pseudo-code for measuring MTTD and MTTR
  let experimentStartTime = getCurrentTime();
  let issueDetectedTime, serviceRestoredTime;
  startChaosExperiment();
  // Monitor for issue detection
  if (systemDetectsIssue()) {
    issueDetectedTime = getCurrentTime();
  }
  // Monitor for service restoration
  if (serviceIsRestored()) {
    serviceRestoredTime = getCurrentTime();
  }
  let MTTD = calculateTimeDifference(experimentStartTime, issueDetectedTime);
  let MTTR = calculateTimeDifference(issueDetectedTime, serviceRestoredTime);

记录经验教训和可操作的见解以应用于系统改进。成功最终取决于系统抵御现实世界中断并从中恢复的能力的增强。

混沌工程解决系统问题的现实例子有哪些？

混沌工程 解决系统问题的实际示例包括：

Netflix：作为混沌工程的先驱，Netflix 创建了 Chaos Monkey，这是一种随机终止生产中的实例的工具，以确保工程师实施其服务以适应实例故障。这种实践导致了 Simian Army 的开发，这是一套用于各种弹性测试的工具，显着提高了 Netflix 的系统可靠性。
Amazon：Amazon 使用混沌工程来测试其 AWS 基础设施的弹性。通过故意引入故障，Amazon 确保其服务能够处理意外中断，从而改进故障转移机制并减少 AWS 客户的停机时间。
LinkedIn：LinkedIn 实施了混沌工程来测试和改进其实时数据基础设施。通过模拟网络分区，他们能够识别并修复分布式消息系统的问题，从而增强 LinkedIn 实时服务的可靠性。
第一资本：第一资本将混沌工程应用于其银行服务，以确保其系统能够承受各种中断和中断。这种积极主动的方法帮助他们在影响客户之前识别并纠正弱点，从而打造更强大的银行平台。这些示例演示了混沌工程如何提供主动方法来发现和解决系统漏洞，从而为各个行业提供更具弹性和可靠的服务。

混沌工程如何集成到持续交付管道中？

将 混沌工程 集成到持续交付管道中需要将受控实验注入到部署过程中，以测试系统在类似生产环境中的弹性。这是一个简洁的指南：

自动化混沌实验：使用 Chaos Monkey、Gremlin 或 Litmus 等工具自动执行混沌实验。这些工具可以使用插件或 API 调用集成到您的 CI/CD 管道中。

stages:

name: deploy…
name: chaos-test script:
chaos run experiment.json

定义触发器：在管道内设置触发器以在部署后或非高峰时段启动混沌实验，以最大程度地减少影响。
监控和分析：实施稳健的监控以观察系统在混沌实验期间的行为。使用 Prometheus、Grafana 或 ELK stack 等工具来收集和可视化指标。
快速失败：配置管道以在混沌实验发现重大问题时停止进度，确保在问题解决之前不会部署进一步的更改。
反馈循环：建立反馈机制，将混沌实验的结果报告给开发团队以便快速修复。
增量增加：从小规模、干扰性较小的实验开始，随着对系统弹性的信心增强，逐渐增加严重性。
文档：保留每个实验的完整文档，包括其范围、结果和任何后续行动。通过将混沌实验嵌入到持续交付管道中，您可以主动识别和解决潜在的故障，从而确保更具弹性和可靠的软件交付流程。
自动化混沌实验：使用 Chaos Monkey、Gremlin 或 Litmus 等工具自动执行混沌实验。这些工具可以使用插件或 API 调用集成到您的 CI/CD 管道中。