这是对2019年6月最初运行的帖子的更新。

2017年2月27日是新遗物的令人难忘的一天。这是那一天Amazon S3 US-East-1地区下线——14个小时。

中断强迫新的遗物组织历史上最广泛的事件反应之一。我们抛出了我们对客户面向客户系统的全部影响的一切,然后制定计划恢复我们的系统以及我们部署能力的计划。

无论如何,这都是一次痛苦的经历。然而,我们对亚马逊宕机的反应也是我们的巨大胜利新Relic应急反应部队(NERF):一个由能力和经验丰富的志愿者组成的团队,他们协调应对我们最困难的事件。

提升你的IC游戏的5个关键

NERFs接管了事件响应中最具挑战性的一个方面:事件指挥官(IC)的角色。在New Relic的,每个事故反应小组都有一个IC和一些我们最好的事件指挥官在自愿削弱轮替。

对于大事具有高技能和精心准备的IC非常棒。(亚马逊事件是我们指定多个IC的新遗物历史中的少数人,以协调响应。)但是,新的遗物的每一个事件 - 不仅仅是来自良好事件命令的大福利。这一价值的大部分是我们了解到关于培训IC的课程的结果,以处理角色的独特挑战和责任。

以下是我们培养优秀事件指挥官的五大最佳实践。

开始之前:上下文中的事件命令

新的遗物的事件响应过程,如我们的许多进程,是在DevOps环境中诞生。这意味着,例如,我们所有的工程师都随时待命提供服务;没有行动墙可以解决问题。我们足够大,足够复杂,我们需要一些过程,但我们真的很努力地制作它足够了s而不是处理过程的缘故。

这一理念也表明了New Relic的立场每个对事件做出响应的开发人员都应该能够充当事件指挥官。如果事故变得特别严重或具有挑战性,我们可能会将更有经验的集成电路带入处理过程,对于最严重的事故,我们会自动呼叫待命削弱。但对于大多数突发事件响应,我们的当务之急是为每一位New Relic工程师配备工具、技能和信心,以履行IC的职责。

回顾New Relic的事件响应过程也很有用,以获得理解事件命令方法的上下文。这是一个我们在以前的文章中广泛讨论过的话题,最著名的是a深入潜入我们的随叫随到和事件响应程序

我们也建议重新审视New Relic的使用方法无可指责的回顾,并学习有关我们应用于回顾和相关活动的最佳实践。回顾是我们事件反应过程的一个关键部分;他们也(我们将在下面讨论)必不可少地提醒ICs,当他们做出艰难的决定时,我们会支持他们——即使这些决定被证明是错误的。

一个快速提醒:为什么不容易......

当我们深入研究这些最佳实践时,回顾一下也是很有用的事件响应场景的三个定义特征。它们是IC角色往往是如此压力的原因,为什么事故自己可能是如此波动。他们是一个重要的提醒,为什么有效的事件指挥官是如此宝贵的资源。

  • 事件响应是一个高赌注事件。结果,最糟糕的事件可能对业务构成存在的威胁。无法访问软件的客户可能只是离开,或者您可能会发现自己违反合同SLA。
  • 事件响应是一个高节奏的事件。换句话说,他们在和时间赛跑。在一个事件中,你可能会担心客户归档支持票或积极关注状态更新和解决方案。188bet亚洲体育输掉这场比赛可能意味着失去一切。
  • 事件反应涉及人群。当你把人们带入一个高风险、高节奏的环境时,压力也会随之增大。

无论如何,我们在这里讨论的所有内容都是为了解决这三个特性及其产生的问题。

事件指挥官训练和授权:5个新Relic最佳实践

1.良好的事件指挥官观点协调作为他们最重要和最紧迫的任务。

突发事件就像高压锅:它们混乱不堪,极其活跃,而且往往不可预测。它们是复杂的;其中很多涉及到的活动部件比一个人可能掌握的还要多。在某些情况下,信息稀缺且高度不可靠;在另一些情况下,一个团队被多种实时信息流淹没。

在这样的环境下,那些视自己为“决策者”或认为自己拥有所有答案的经济人注定要失败——他们更有可能放大恐慌,而不是遏制恐慌。

成功的ICS专注于协调。他们的工作是识别和招募合适的人,拥有合适的知识和技能,以制定有效的团队应对措施。他们能够确保所有玩家都拥有他们所需要的内容;他们减少摩擦,促进清晰的沟通。

作为一个协调者,IC是风暴中心的平静,是恐慌和反应性思考的解药。实际上,这意味着:

  • 专注于提出正确的问题——而不是知道答案。
  • 确保建设性的想法不会被淹没或被忽视。
  • 质疑和挑战思想评估他们的优点。
  • 推回群体和反应思维。
  • 将故障排除留给其他团队成员—但是支持故障排除过程。

如果你还记得这篇文章中的一件事,那就是:成功的ICs注重协调。

2.ICs控制情绪、信息和分析的流动

新的遗物IC使用我们所指的是“三流动”,以保持团队平静,专注,并准备工作:

情绪流动。事件是恐慌和反应行为的滋生地。认识到恐慌反应并引导人们走出恐慌是IC的首要任务

注意事件参与者的情绪,包括你远程通信的人。你越早认识到反应模式的转变,你越早行动将他们拉回一个平静,专注的心态。

信息的流动。这主要是关于了解你的参与者:谁在房间里?他们已经知道什么,他们又知道什么知道他们在乎吗?

IC在这里的作用包括倾听、过滤和对有意义的东西采取行动。你需要呼叫另一队吗?是否有可以解决棘手问题的领域专家?刚刚加入事件响应的工程师是否了解当前状态以及他们如何提供帮助?你是否发现了一些关于事件的新情况,可能对与客户沟通很重要?有一段时间没有一位工程师同意执行一项关键任务,并提交状态报告了吗?当ICs将自己视为管道时——致力于将正确的信息传递给正确的人——解决方案往往会出现得更快。188bet亚洲体育

分析流程。有时,您会遇到一个事故,您确切地知道哪里出了问题,您可以将主要精力放在实现修复上。

但最重要的是,你会得到其他类似事件——就像工程师决定看看当运行一个带有65个连续通配符的查询时会发生什么。(现在我们知道了:不好的事情总会发生。真实的故事!)

这种事件可能是可怕的,但它们也非常有价值。他们是IC的机会,实时发现,他们的系统的心理模型与现实 - 或与他们的同事们对齐的地方。

3.成功的事件指挥官是事件背景的大师

当你的主要工作涉及协调时,背景是非常重要的。这是增强你的能力的燃料,使你能够建立联系,识别有用的资源,并发现团队知识和能力的差距。

对于集成电路来说,有三个方面对提高其对上下文的把握特别有用:

熟练掌握组织的技术和人员系统。这包括了解常规系统架构,如何合适地组合在一起,以及系统的哪些部分在给定时间的最大压力下。

例如,如果IC运行的事件仅限于其团队的服务,则需要了解服务的一般架构、功能和直接依赖关系。

运行大型、多团队事件的削弱需要对边界产品架构有一个总体的了解。另一方面,集成电路不需要有a对系统有深刻的技术理解涉及到一个事件,就像意识到服务可能如何组合在一起一样。

IC还应该了解组织:角色和团队是如何定义的,如何接触人,以及根据发生的事情需要哪些人和团队参与进来。

熟悉组织的事件响应流程。我们不希望我们的IC记住每个细节或每一行文件;经验丰富的IC可以通过开发基本事件生命周期的“肌肉记忆”来实现相同的目标。但是,如果IC将相关过程保留在其指尖中,它当然有助于帮助。

了解组织的优先事项,文化和工作方式。一个成功的事件响应关注于在组织的常规实践和能力范围内的实际解决方案。188bet亚洲体育集成电路离这些核心能力越远,就越难组织和维持响应。

4.要明白培训是至关重要的,但鉴赏人才的眼光也很有用

你最不应该做的就是因为IC“缺乏人才”而阻止他们。通过正确的培训,几乎任何人都可以成为一名优秀的IC,甚至可能成为一名优秀的IC。

尽管如此,鼓励具有某些特质的ICs还是很不错的。这些人可能会更快地吸收训练,记住更多他们所学到的东西,他们可能拥有正确的情感特征来对抗恐慌,并在压力或混乱的环境中表现良好。

当谈到训练事件指挥官时,一些“自然”的迹象包括:

实现技术流畅性的人才。特别是集成电路需要一个广泛的技术词汇这样他们就能理解房间里发生的对话。他们还需要经过校准的技术知识即:对自己知道什么和不知道什么的准确感知。

自律的天赋。如果你不能控制自己的情绪和智力反应,你就无法控制房间里的情绪流动。这就是医学专业人士所说的“临床超然”,事件反应越强烈,这种能力就越有价值。

天生对工作的热情优秀的ICs喜欢在事故响应过程中遇到的挑战。他们更关注成功反应带来的兴奋感,而不是失败的可能性。但他们也接受了这样的现实:他们不可能赢得每一场事件应对战——而且他们也接受了这一点。

总是请记住一件事:成功的组织也非常努力地使IC角色尽可能有吸引力。庆祝成功的事件决议 - 协调他们的IC。188bet亚洲体育同时,建立和培养一个无可指责的文化在您的开发团队中,并确保ICs不会因为做出艰难的决定或进入挑战事件指挥机会而受到惩罚。

5.练习,练习,再练习!

到目前为止,练习是ICs新手培养技能和信心的最佳方式。练习过程越真实,对初学者的影响就越大。

New Relic的ICs实践方法依赖于两种相关的模拟:比赛日和对抗赛日。第一个事件测试集成电路对预先定义的事件响应场景的响应;第二种是由混沌工程方法,使用选定的“恶意参与者”来增加意外破坏的强度和可能性。调整这些练习也相当容易,不仅可以测试ICs在事故中做什么,还可以评估它们在压力下的反应和表现。

New Relic还鼓励新的IC“模仿”IC的角色。这涉及到在事故中呼叫两名团队成员:一名有经验的IC和一名正在接受培训的IC。两个人都将参与这次事件。在可能的情况下,“影子”会有空间来执行集成电路的职责,有经验的集成电路会在需要时提供指导、提示和提醒。这种实践在个人团队层面上都可以很好地工作对于nerf角色也是如此。

强大的事件指挥官使有效的事件管理成为可能

正如我们在以前的文章中所描述的,好的事件管理包括很多要素。也许这些都比不上在工作中有一个自信、冷静、训练有素的事故指挥重要。对于创建有效的事件指挥官来说,没有什么比一个认识到IC的关键作用的组织更重要的了,并投入资源来培训、授权和认可优秀的IC。

Annette Sheppard是新遗物的高级产品营销经理。她专注于AIOP,一直在寻求学习新的东西。查看帖子

对新遗物博客的写作有兴趣吗?188博彩体育网址送我们一个球场!