Close

Atlassian 事件手册

概观

如今,提供技术服务的团队都需要全天候待命。

出现问题时,无论是服务中断还是功能损坏,团队成员都需要立即做出响应并恢复服务。这个流程称为事件管理,对于大大小小的公司来说,这是一项持续而复杂的挑战。

We want to help teams everywhere improve their incident management. Inspired by teams like Google, we've created this handbook as a summary of Atlassian's incident management process. These are the lessons we've learned responding to incidents for more than a decade. While it’s based on our unique experiences, we hope it can be adapted to suit the needs of your own team.

Caution alert exclamation point

对事件做出响应

检测到事件后的响应过程和采取的步骤。

Illustration of different kinds of charts

事后析误

如何执行无指责的事后析误、确定根本原因以及规划修复工作。

Illustration of book with lightbulb above it

事件手册概述

本指南面向哪些人?

如果您所在的开发或运维团队为需要全天候服务的客户提供互联网服务,那么本手册可以帮助您。

什么是事件?

我们将事件定义为:需要紧急响应的服务中断或服务质量下降事件。遵循 ITIL 或 ITSM 实践的团队可能会使用术语“重大事件”指代我们所说的“事件”。

受影响的服务以惯常方式恢复正常功能后,事件就得到解决。这只包括恢复完整功能所需的那些任务。 

事后析误是在事件后执行,目的是确定根本原因并安排行动,确保事件不会重复。

我们的事件价值观

事件管理流程无法涵盖所有可能的情况,因此,我们用“价值观”的形式为我们的团队提供一般性指导。与 Atlassian 的公司价值观类似,我们的事件价值观旨在:

  • 指导员工和团队在事件和事后析误中所做的自主决策。 

  • 就我们如何确定、管理事件以及从事件中学习,在团队之间建立一致的文化。

  • 就团队应该对事件识别、解决和反思的每个部分采取的态度,让团队达成共识。

阶段 事件价值观 相关的 Atlassian 价值观 基本原理
1. 检测 Atlassian 在客户之前知道

Build with Heart and Balance

均衡的服务包括充分的监控和警报,以便在客户之前检测到事件。 

最佳的监控可以在问题成为事件之前提醒我们。

2. 响应 上报、上报、上报 

作为一个团队进行工作

Nobody likes being woken up and we don’t take the responsibility lightly. But people understand that occasionally they will be woken for an incident where it turns out they aren't needed. What’s usually harder is waking up to a major incident and playing catch up when you should have been alerted earlier.

我们不会总是得到所有答案,因此“不要犹豫,请上报”。

3. 恢复 如果不幸的事情发生了,立即解决 不要叨扰客户

我们的客户并不关心服务出现问题的原因,他们只想让我们尽快恢复服务。

毫不犹豫地迅速解决事件,以便我们可以最大限度地减少对客户的影响。 

4. 学习 始终不去指责 Open Company, No Bullshit 运行服务就难免会出现事件。我们通过让团队当责而不是指责来改善服务。
5. 改进 永远不要让相同的事件发生两次 实现您需要的改变

确定根本原因,找出可以做出哪些更改以阻止所有类似的事件再次发生。

努力按指定日期提供指定的更改。

 

工具要求

这里介绍的事件管理流程使用了一些 Atlassian 的工具,读者可以根据需要替换:

  • 事件跟踪 - 每个事件都会作为 Jira 事务进行跟踪,并创建一个后续事务来跟踪事后析误的完成情况(Atlassian 在 Jira Ops 发布之前使用的是高度自定义的 Jira Software 版本)。

  • 聊天室 - 实时文字沟通渠道是一个团队诊断和解决事件的基础。

  • 视频聊天 - 对于大多数事件,Blue Jeans 等团队视频聊天工具可以帮助您讨论方法并达成一致。

  • 警报系统 - 类似 OpsGenie 等的工具,可管理随时进行的轮换和上报。

  • 文档工具 - 我们使用 Confluence 创建我们的事件状态文档,并通过博客分享事后析误。

  • Statuspage - 通过 Statuspage 与内部利益相关者和客户沟通状态,这有助于让每个人都参与其中。

事件跟踪

每个事件作为 Jira 事务进行跟踪,并创建一个后续事务来跟踪事后析误的完成情况。本手册中的流程使用了我们高度自定义的 Jira Software 版本,该版本启发我们开发了 Jira Ops。因此,该流程与如今的 Jira Ops 中提供的功能不完全对应。

事件事务通常由支持工程师创建以响应客户请求单,或者由把监控警报识别为事件的开发人员创建。我们建议,如果大家担心某些事情,就创建一个事务,而不要坐等事态恶化。

在 Jira 中,我们有一个简单的工作流,可以在整个解决阶段跟踪事件,并记录事件响应期间采取的所有重要行动。

事件管理员

每个事件都由事件管理员 (IM) 推动,该管理员对事件负有全面的责任和权力。这个人由事务的经办人指定。事件管理员有权采取任何必要的行动来解决事件,其中包括呼叫组织中的任何人,以及让事件涉及的人员尽可能快地恢复服务。 

事件管理员是一个针对事件的角色而不是个人。在事件期间定义角色,其优点是可以更换人员。只要指定的人员知道如何承担角色,就可以在任何事件中承担这一角色。

对本指南有一些想法或建议?

太好了!您可以将反馈意见发送至 incident-handbook@atlassian.com,告诉我们您的想法。

Caution alert exclamation point

对事件做出响应

检测到事件后的响应过程和采取的步骤。

Illustration of different kinds of charts

事后析误

如何执行无指责的事后析误、确定根本原因以及规划修复工作。

在寻找帮助执行事件管理流程的工具?