Close

针对高速团队的事件管理

优化 IT 运营的事件管理

中断会影响利润。

停机通常不仅意味着收入损失,而且还意味着声誉受损、合规和监管处罚、客户流失、运营成本上升和延迟,因为需要从其他项目撤出 IT 专业人员来解决事件。

事实上,IHS 的一份报告估计,停机每年给北美组织造成超过 7000 亿美元的损失,其中 78% 是由于员工生产效率下降。

第 9 页的图片显示了 IT 停机期间。强调员工生产效率是迄今为止最大的成本。IT 停机每年给北美企业造成 7000 亿美元的损失,大部分是由于员工生产效率下降。

这样的数字清楚地表明,收入损失并不是事件管理的唯一优先级,甚至不是最重要的优先级。优化的事件管理流程还需要解决事件管理背后的人员、流程和技术方面非常现实、代价昂贵的挑战。

现代 IT 事件管理面临的挑战

中断的流程和技术

40 年计算创新的副作用是,许多公司现在都在运营应用和系统的折衷组合。有些应用位于自己的数据中心,可以对其进行密切控制,而其他应用则在 Cloud 交付并由第三方提供商管理。

这些应用、服务和系统的集合通常会导致日志记录、监控和警报的解决方案和流程错综复杂地拼凑而成。企业每天使用数十种监控工具来跟踪数千个应用事件或警报的情况并不少见。

这种拼凑而成的方法可能导致大量的警报、沟通中断、待命员工缺乏明确的优先级,以及这种拼凑而成的流程某个阶段的失败可能会导致整个事情停滞不前。

大量的警报/事件

许多 IT 运营部门将警报发送到电子邮箱中,以解决其容量问题。但这只会使情况变得更糟,造成这样一种情况,即电子邮件需要负责确定事件优先级和升级关键消息的高级员工进行全天候监控。

这种无止境的警报流可能会让人不堪重负,并导致警报疲劳、倦怠、工作不满、焦虑和更长的响应时间。它会影响员工在工作场所的幸福感和生产效率,从而直接影响企业的利润。

运营成本上升

尽管基础架构成本有所下降,但运营成本却在增加,这在一定程度上是由无法控制整个系统时调试问题的复杂性导致的。

衡量错误的成功指标

服务台运营成功与否通常是通过呼叫吞吐量和平均呼叫时间等指标来衡量,这两者都不影响事件管理的有效性,也不能直接衡量事件管理的有效性。

即使是像 MTTR 和 MTBF 这样的实用指标也不足以提高事件管理绩效。他们旨在帮助我们确定事务,但他们无法回答更棘手、更具定性的问题,即事件发生和解决的原因和方式,以及如何改进这些指标。

事件响应团队结构过时

就在十年前,响应 IT 事件是运维团队的主要工作。组织通常实施分层的团队结构(第 1 级、第 2 级、第 3 级)来响应客户或监控工具报告的事务。

当时事件管理目标是一样的:在保持服务级别的同时最大限度地降低运营成本。因此,1 级响应者通常是低成本的入门级员工。如果他们无法解决事件,将升级到第 2 级(通常是经验更丰富的中级专业人员)。此上报过程将继续进行,直到事务得到解决。

尽管此流程确实优先考虑成本节约,但这样做却会牺牲敏捷性。如果团队与入门级员工一起发起事件并要求进行多级上报,则其响应速度较慢,这可能会对事件解决时间线产生直接影响,而随着客户通过社交媒体渠道宣扬自己的挫败感,这又会直接影响公司的声誉。

此外,由于公司因员工生产效率降低而损失了 78% 的事件管理资金,很明显,上报模式实际上并不能为公司节省资金。如果开发软件的人可以在 15 分钟内修复错误,而您的入门级人员花了两个小时并且无论如何都必须上报错误,那就不是一个高效的系统。

在服务永不停机的世界中,敏捷性变得比以往任何时候都更加重要。平均响应时间和平均解决时间等指标之所以受到关注,恰恰是因为公司要想最大限度地降低成本,就需要最大限度地提高敏捷性。

如何优化 IT 事件管理流程

很明显,现在是时候重新调整我们的事件管理工作的重点,使其流程、团队结构和实践反映当今新的业务现实。但是重新调整重点的流程是什么样子的?

确定警报的优先级并整合

警报疲劳的主要罪魁祸首和生产力损失的关键因素是过多的无意义、不可操作的警报。最简单的解决方法?确定关键系统,消除重复的冗余通知,并为警报创建清晰的优先级层次结构。

创建适合您团队的待命时间表

避免警报疲劳、倦怠和效率低下还意味着要制定适合您团队的待命时间表。这意味着不要让任何一个人或团队负担过重,在需要时提供备份支持,并定期重新评估日程安排的有效性。

尽可能实现自动化

当您手动筛选数十份报告以确定和上报重要的报告时,很容易失去注意力。好消息是,这不再是必须由团队成员手动完成的事情,您可以通过自动化将其从任务列表中删除,以避免工作效率下降和警报疲劳。

警报路由、通知、删除重复数据、消息工作流程、会议桥创建、状态页面更新、待命安排、上报流程和 KPI 跟踪也可以全部或部分实现自动化,以节省团队时间并减少固定重复任务中的人为错误。更不用说随着时间的推移,自动化为公司节省了资金。

跨渠道和利益相关者进行有效沟通

事件影响到各种利益相关者,通常包括内部和外部,需要告知这些利益相关者。研究表明,87% 的业务利益相关者希望获得事件的最新信息(与事件本身相比,56% 的利益相关者对缺乏沟通感到沮丧)。客户肯定也有同样的感觉。

在人们期望永远在线的时代,制定可靠的事件沟通计划是优化难题的重要组成部分。

轻松追踪正确的指标

跟踪和审查成功指标越容易,您的团队就越有可能跟上这些指标。尽可能自动执行报告,并提前明确哪些指标对您的团队很重要以及原因。

进行无指责的事后分析

事件不会仅仅因为应用或数据库重新上线而结束。为了防止事件,减少在未来事件上花费的时间,并更好地了解您的流程、团队和策略如何影响事件管理,您需要进行事后分析。

在 Atlassian,我们的事后分析是无指责的,这意味着他们专注于提高绩效和向前迈进,而不是进行问责。

选择支持您的流程和需求的技术

自动化、警报优先级、待命时间表、KPI 跟踪。为了确保有效,这些基本流程中的每一个都需要能够支持它们的技术。在选择技术之前,请确保您了解自己的目标、流程和团队需求。如果要自动整理、删除重复数据并确定警报的优先级,您需要一个具备这些功能的解决方案,例如 Jira Service Management