在2014年回来的路上,Gartner公司估计在$ 5,600个停机时间的一分钟的平均成本。这被广泛引用的数字加起来超过30万小时$,这只是平均值;在2019年,在关键样黑色星期五电子商务网站或流式视频服务“关键时刻”的重大体育中对大型组织的影响的事件,可能是很多,大很多。

在该范围内强调快速和有效应对影响您的网站的可用性或性能的任何事件的重要性。

什么是“事件”?

基本上,事故发生在任何时间,服务不存在或已通过正式的服务水平协议(SLA)定义通常对道路不执行。事件可以通过多种因素引起:网络中断。应用程序错误。硬件故障。而且,越来越多,在当今复杂的,多层次的基础设施,配置错误。

事件管理(IM)指帮助检测、识别、故障排除和解决此类事件的集体流程。受到IT基础设施库(ITIL)的强烈影响在20世纪80年代,英国政府,IM已经发展了很多年,包括很多框架和方法es。然而,他们都有一个共同的目标:为利益相关者提供他们所需要的工具,使行为不当的影响客户的系统尽快启动和运行起来,同时使这些系统更加健壮和可靠。

不过,尽管有很长的历史,IM仍然笼罩在神话和通过禁止公司为迅速而有效,因为他们可以,也许更重要的是,解决从学习如何减少事故的发生事故的误解步履蹒跚。

这就是为什么我们要求事故管理的专家在New Relic的,并围绕产业确定共同IM神话和错误,并分享最佳事件管理最佳实践自己的见解。

误区1:速度就是一切

也被称为“只要能解决就能解决”的神话。快速解决问题显然很重要,特别是对于直接接触客户的系统。但这并不是唯一需要担心的事情。以速度的名义实现一个坏的或不完整的修复,或者一个临时的修复,或者一个破坏下游其他东西的修复,可能是危险的。

克里斯托夫Goldenstern从凯普纳 - 特里戈。

“很多口惠而支付给需要的IM质量和客户满意度,但是当你看很多指标衡量IM的成功,他们实际上主要集中在效率:一个问题是如何快速解决,”说克里斯托夫Goldenstern在创新和服务卓越,副总裁凯普纳 - 特里戈,培训和咨询公司,专门从事IM。

相反,企业应该关注最终结果的有效性和速度。“我们最终会给客户提供长期的解决方案吗?””Goldenstern问道。“我们是否在防止同样的事情再次发生?”这些都是应该问的问题。”

他补充说,围绕“滞后指标”,或向后看来衡量的东西是怎么做的,是不是非常有效。相反,他说,企业应着力提高推动更好的和持久的结果的行为,并创建一个围绕这些指标。

一个度量凯普纳 - 特里戈公司鼓励客户使用是需要让手头上的问题的一个很好的发言时间。“我们从我们的研究,问题陈述的质量是较低分辨率时间和更高的客户满意度的直接驱动知道,” Goldenstern说。“训练你的人尽可能快地不是简单地把一个修复到位更好的将竭诚为您创造清晰,简明,和精确的问题陈述。”

不要错过:如何运行的对抗性比赛日

误区2:一旦你已经熄了火大功告成

这个神话,令人高兴的是,慢慢地被根除。这些天来,这是相当标准有某种验尸或内部追溯解决的事件后。问题的关键是主动地从此事中汲取教训,使您的系统更加强大和稳定,并避免今后发生类似事件。这里的相关短语,“主动学习“。

亚当Serediuk从xMatters。

“重要的是要激励预防措施,而不是在反应模式只是解决突发事件是真正重要的,”说亚当Serediuk,运营总监xMatters中,DevOps的事件管理工具制造商。If you don’t dictate that your incident lifecycle doesn’t end until that postmortem is completed and its findings are accepted or rejected, “you’re effectively saying, ‘we’re not really interested in preventing future incidents,’” says Serediuk. There’s a difference, he adds, between反应回应。你可以反应对突发事件,例如,通过抛出一些你的摇滚明星在它,修正它的时候了。“但这个过程不能方便地重复,”他说,“它不能形成规模。”

重要的是要把IM看作是一个端到端的过程响应是可度量的、迭代的、可重复的和可伸缩的,同意吗布拉尼米尔瓦伦蒂奇,克罗地亚ITIL和ISO 20000的专家在Advisera.com,一家国际ITSM咨询公司。他表示:“即时通讯的意义不仅在于解决问题,还在于更深层次地学习。”

一个风险是,随着时间的推移,事后分析可能变成一种死记硬背的练习——只是一个让疲惫不堪的工程师去检查的盒子。“在这种简单的模型中,事后分析变成了繁忙的工作,”他警告说贝斯龙,高级软件工程师和技术产品经理New Relic的。从事件中学习是非常有价值的,但也充满挑战,她说,“需要你不断地调整和适应弄清楚如何有效地学习。”

不要错过:如何及为何举办“无可指责的回顾”

误区3:只有报告重大事项,客户抱怨,避免使它看起来糟糕

另一种流行的神话故事,说你不应该过于交际有关的事件。如果您报告每一个事件,推理去,它可以看起来好像它的失败。这是更好地保持你的头下来,并承认和交流只有严重事件客户已经注意到并报告。

无论如何,这只是理论上的,但这是个糟糕的想法。客户——以及内部利益相关者——希望感到您是诚实和透明的,并且他们可以信任您能够检测并承认可能影响他们的事件。隐瞒一些小事——即使是小事——也会破坏这种信任。

贝丝龙从New Relic的。

Long说,当事情发生变化时,你不应该把它看作是你的it组织的污点。“你

运行复杂的系统,”她说。“当然事情会变糟的。发生意外只是游戏的一部分。关键是你怎么做。”

“One of the things I like at New Relic,” Long adds, “is that we’re proactive about communicating, both internally and to customers, which counteracts that myth of, ‘Oh no, you can’t tell anyone unless it’s a huge deal.’ A lot of companies are paranoid about sharing any information unless they’re basically forced to, but that’s a mistake. Be transparent.”

不要错过:在呼叫和事故响应:教训成功后,New Relic的路

误解4:只有影响客户的事件才重要

一个相关的说法是,只有事件是影响外部客户是相关的。事实上,一些机构甚至定义事件仅作为“客户影响的破坏。”但相信神话会降低你的整体IM有效性。同样,这个想法是,IM应该是一个学习的经验和你应该采取基于这样的学习积极行动。

“有很多来自内部的失误和内部唯一的事件来学习。他们甚至可能是一些你最好的学习经验,因为它是磨练你的反应过程和学习没有压力的机会,” xMatters’ Serediuk说。“这是很难灌输真正的组织变革时,事情都着火了。”

假设你的内部售票系统出现故障或您的内部维基炸毁。监督什么类型或缺乏控制允许这样的事情发生?在这样的相对较小的国内局势,“你可以在更少的压力学习,或许可以避免日后生产事故,” Serediuk说。随着低压你可以关注多了几分故意的为什么你有一个特别的问题,以及如何防止再次弹出。

不要错过:推动运营意识有了事故数据

误区5:系统总是会提醒您,当他们在痛苦

操作人往往会监控他们认为什么是重要的。但他们并不总是正确的。发生这种情况时,系统可能会遇到麻烦,和你的团队可能是幸福无知。从历史上看,营运小组看着这样的度量如磁盘利用率,CPU使用率和网络吞吐量。“但问题是真的,是服务健康吗?”Serediuk说。

这归结于宏观和微观监测之间的差别。在微监测,你看各个部件,如CPU,内存和磁盘。随着宏观监控,你看的大局观,这是它影响了系统的用户如何。

“这是服务水平目标[SLO来]和服务水平的指标[特别输入劳工计划]开始发挥作用,” Serediuk说。“你的用户经验来判断的事情。”例如,如果所有每秒一滴突然你的Web请求到零,你知道你有问题。如果你只是在做微监测,如保持在内存利用率选项卡,你可能已经错过了它。“通过观察指标要紧,无论用户与我的系统搞,”他说,“我抓住的东西,我可能不会否则注意到。”

不要错过:六步战斗警报疲劳最佳实践设置SLO来和特别输入劳工计划对于现代的,复杂系统

误区6:你可以告诉如何好你的IM过程是由你的平均时间努力分辨率(MTTR)

该MTTR正是它说:均值(平均)花费的时间来解决的事件。但问题盛产根据此指标作为晴雨表IM成功。对于初学者来说,所有的事件都是不一样的。操作简单,易于解决的事件不应该用相同的度量作为更复杂的判断。

兰迪·斯坦伯格从并发。

“企业范围内的电子邮件服务宕机,与只有少数用户的应用程序(可能每隔一个月就会出现一次容易解决的故障)相比,你会怎么做?””问兰迪·斯坦伯格,一个解188bet亚洲体育决方案架构师,IT咨询公司并发。“事件五花八门,不能很好地反映你做得有多好。”

此外,测量MTTR本身就是一门艺术,而不是一门科学。举例来说,当它的时钟滴答开始?它是应用程序启动时放慢?当你得到你的第一个警告?当客户通知?“复杂系统的界限是如此流畅,这是一个比较难衡量的持续占领,指出:”新文物的龙。如果你的即时响应时间是非常差,你想它弄下来的“理智”号MTTR可能是有用的,她补充道。“否则,它可以是非常误导。”

不要错过:降低MTTR的正确方法

误解7:我们越来越擅长即时通讯,因为我们更快更早地发现问题

由于增加的疗效和自动监测和报警像New Relic的工具粒度,企业在检测的事件越来越远好于以前可能。但是,这并不意味着我们在事件管理渐入佳境。检测事件是只有一半的方程。解决它的另一半。

来自Everbridge的Vincent Geffray。

“有趣的是,如果你看看整个过程中,我们并没有在一般情况下,应对事故越来越好”索赔文森特Geffray在产品营销高级总监Everbridge,一个关键的事件管理公司。为什么?因为所有的收益,我们在这个过程中,检测事件越早,在该过程的第二阶段,其中包括寻找合适的人解决问题浪费了第一阶段获得。“这可能需要几分钟的时间来检测问题,然后一小时只是为了得到合适的人表,开始找出一个解决方案,”他说。

补救的办法?花时间来研究在事件响应过程中的步骤,朝向使他们更高效的眼睛。这就是最大的收获还没有实现。

Geffray说,“在现实生活中发生的事情,”在一个工具像New Relic已经确定应用程序的问题,就是创建一个机票票务系统,然后你必须找到正确的人,让他们在一起,给他们他们需要的信息,这样他们就可以开始调查。“在大多数情况下,不会是一个人。他指出:“研究表明,大多数IT事件至少需要五个人来解决。”“你可以想象,关键任务应用程序的数量越多,组织规模越大,分布越广,需要的时间就越多。”

千万不要错过: F香港专业教育学院的事件响应工作流程的步骤,配备了吉拉软件和New Relic的整合

误区8:“无可指责文化”是指不追究​​事件

考虑到IT行业朝着无可指责的文化的(压倒性的积极)运动,这是一个需要消除的重要神话。

从好的方面来说,一种无可指责的文化可以消除对即时通讯的恐惧:当人们知道自己不会因为犯错而被解雇时,他们更有可能坦诚和透明。但这并不意味着不问责制,”长说。“犯错误没有惩罚,并不意味着你不应该指出谁犯了哪些错误,从而从中吸取教训。”

责任和指责之间有很大的区别。对复杂系统的指责通常是对其本质的误解,在这种情况下,一个特定的错误更有可能是引发潜在故障的多米诺骨牌效应的触发事件。一种无可指责的文化实际上能带来真正的问责制,因为个人和团队感到足够安全,可以公开错误,这样组织就可以改进整个系统。

不要错过:如何及为何举办“无可指责的回顾”

误区9:你需要一个专门的团队IM

一些公司选择有一个独立的、专门的事件管理团队,而另一些公司更喜欢通过常规的IT工程工作来轮换人员,事实上,有很多原因可以解释为什么您希望在您的IT组织中分布IM技能。

“If you look at the DevOps approach, any engineer at the entire company can respond to any incident in any role, and that’s really powerful,” says Long, who notes that while New Relic has the New Relic Emergency Response Force (NERF) ready to step in as Incident Commanders for high-severity incidents and the “really difficult stuff,” for day-to-day incidents, responses are distributed across the whole organization.

赋权谁拥有必要的信息来做出艰难的通话时的一件事情是至关重要的任何工程师解释道长。“当事情起火等待某人在电话会议上得到你不能坐在那里。您需要授权谁是响应能够做出困难的决定,知道,只要他们已经有能力做到这一点,勇往直前,拨打电话,做最好的自己。”

当然,这一切都需要紧张,深入和持续的培训,以及重复的,反复的过程。你想拥有最好的资源来解决这需要适当的组织和良好的磨练过程中的最大事件。在New Relic的,工程副总裁马修火焰山已经放样的位置,每一个工程师,谁是随叫随到应该有足够的训练和足够的经验,做好电话。“如果他们让这种情况发生横着走了一个电话,我们就会有自己的背,”烈焰红唇说。

不要错过:介绍New Relic的应急力量

fredric@newrelic.com”

弗雷德里克·保罗(又名Freditor)为主编的新文物。他是一个屡获殊荣的作家,编辑,和谁曾在读写,AllBusiness.com,信息周刊,CNET,电子娱乐,PC World和PC担任高级编辑职位的内容策略|计算。他的作品曾出现在麻省理工学院技术评论,全方位,康德纳斯旅行者,以及新闻周刊,在其他地方。通过查看帖子

以书面New Relic的博客人气?188博彩体育网址给我们发个广告