语言可能是良好沟通的障碍。相反的利益也可以。但俗话说,“数字不会说谎。”“无论你喜欢与否,你都无法否认硬数据告诉你的东西。

在我们的业务中27日全球,我们每天都依赖数据来分解我们地理上分布式开发团队,我们的开发和网站可靠性工程(SRE)团队和美国和客户之间的通信障碍。沟通妨碍了,生产力和质量受苦。这就是为什么数据位于我们的SRE组织的核心。在27Global,SRE是一个商业支柱 - 在内部使用,以帮助我们确保我们的开发项目的高性能和质量 - 提供给客户的服务,因此他们可以监控并响应其生产工作量的问题。

SRE功能对于我们和我们的客户来说是至关重要的,拥有完整、准确的遥测数据是必不可少的。我们面临的挑战是如何在不增加工程师工作量的情况下获得这些数据,因为工程师需要专注于交付出色的产品。188bet.com为了应对这种挑战,需要严格的可观察性和整个堆栈的自动化。

为什么栈间的可观察性和可编程性?

可观察性——在整个软件堆栈中轻松分析和排除问题的能力——为我们提供了一个与全球开发团队共享的真理版本。但这不只是针对我们的开发者。它还为我们提供了对生产工作负载的可见性和洞察力,这些工作负载经常暴露出性能问题,如查询速度慢、资源争用和队列瓶颈,这些问题在测试环境中可能不会出现,而且我们的开发团队几乎不可能复制这些问题。

可观察性包括应用程序性能监控,基础设施监控,日志分析,数字体验监控 - 一切,无处不在,在云中,虚拟化,集装箱,单片,微服务,您将其命名为。如果您不想通过手动构建所有这些警报,您应该以编程方式收集和可视化所有这些地方的数据。您希望为他们提供API,以便他们可以将仪器编程到软件中并自动提醒。简单地说,这减少了劳动,减少了我们的团队的辛劳意味着它们可以更有效,并将时间放入有意义的工作而不是低级别的任务。

我们在27格罗巴尔如何这样做?我们使用New Relic的一,这是一个强大的可观察性平台,并内置了可编程性。让我们深入了解一下我们正在用New Relic做的一些具体的事情,以获得我们需要的数据,不仅是为了打破沟通障碍,也为了提高生产力和产品质量,并为我们的SRE客户提供真正的价值。

自动化使用可观察性作为代码

我们使用起程拓殖作为我们的主要工具,用于作为代码提供和管理基础设施。我们也使用Ansible.自动执行应用程序构建。从历史上看,我们的云工程师需要手动向基础架构添加监控,我们的开发人员必须建立监视到应用程序。现在,使用来自New Relic的地形提供者,我们利用API自动为我们的应用程序和基础架构添加监控。这就是我们称之为可观察性的代码。例如,当我们站起来一个新的Kubernetes Pod时,我们可以编写一个将新的遗物的APM代理注入该环境的Ansible脚本。然后我们只能在顶部放置变量。它为我们提供了一个模板,我们可以一遍又一遍地使用,而不是每次重塑轮子。

从DevOps的角度来看,以这种方式自动化——将可观察性编程到环境中——意味着我们可以移动得更快。正如前面提到的,它减少了没有开发商享受的辛苦。它将他们花在无聊工作上的时间最小化,这样他们就可以专注于有趣的事情。

构建仪表板以改善全球团队之间的沟通

通过仪表应用和基础架构,我们能够收集大量有意义的数据。通过数据,通信问题出出窗口 - 没有更多的借口。我们使用多种不同的方式来改善通信,其中一个是用仪表板。

我们为我们的开发团队建立了最终的仪表板。像大多数现代IT商店一样,我们在不同的物理位置,时区和大陆有多个团队。在我们的分布式团队之间使用常见数据集是便于清晰通信的好方法。将日常运行数据升入仪表板使从一个团队转换到另一个队伍更平滑。它支持像我们这样的阳光模型。每个人都有一个地方,而不是试图向多个人手动传达信息。它们具有相同的相同数据的视图,这使我们能够在每天结束时出现的项目更加连续性。

仪表板还克服了发展和SRE团队之间可以存在的通信障碍。正如我们希望开发人员要编写可部署的代码,我们也努力使开发人员能够对现场可靠性的影响。这种可见性提供了DEV团队,围绕SRE团队的需求提供更多背景。对于SRE侧面来说是一样的 - 他们可以更好地了解开发人员活动。数据是双方在中间见面的一种方式,这是一套常见的指标,使团队共同拥有完全相同的谈话,这是一个巨大的改进。

提高生产力,减少平均解决时间(MTTR)

像New Relic这样的可观察平台的一大优点是,它提供了一个观察环境的单一视角。我们可以在30秒内让客户大吃一惊,只要给他们看Kubernetes集群使用所有服务,节点和命名空间。我们可以向客户端即时报告正常运行时间,性能和数字用户体验,而过去它将需要我们四个小时或更长时间才能收集所有信息。

我们内部的生产力也提高了。事实上,我们已经把建立一个新项目的时间缩短了一半,而且通过使用全栈可观察性和自动化的组合,时间还在继续减少。

解决问题的时间也更快了。例如,我们的一个客户有一个数据库问题,我们通过New Relic发现了这个问题。几个月来,客户端出现了应用程序性能问题,但没有人知道原因,直到我们引入了New Relic的可见性。通过研究New Relic的日志,我们能够排除一个错误的查询,并在第二天进行修复。客户端立即看到应用程序的性能改善。

这个示例获得了我们的SRE服务查找和快速解决应用程序和基础设施问题的关键好处。我们希望能够在客户的问题对客户产生任何影响之前发现并做出回应。这就是我们用New Relic所能做到的。

没有以数据为中心的策略挣扎

正如你所看到的,全栈可观察性和自动化对27Global的产品和服务的性能和质量有巨大的影响。188bet.com我们不会在沟通上挣扎——我们有数据来支持我们的主张。我们可以实时准确地度量应用程序和基础设施的关键操作属性,获得有价值的见解,并立即分享这些见解。一个可编程的可观测平台可以让我们在没有大量额外工作的情况下获得更多有用的信息。这是任何DevOps团队都会欣赏的。

Thomas Martin是27 Global的现场可靠性总监,许多年领导的托管和应用开发组织领先的大型开发和运营团队。托马斯对自动化和可靠性充满热情,重点是在进行生产时从等式中删除人为错误。托马斯喜欢教导他的孩子的乐高机器人和足球队,并在一个可爱的周日下午享受了一些5针的足球,烧烤,并支持当地的Devopsdays KC会议。查看帖子

对新遗物博客的写作有兴趣吗?188博彩体育网址给我们发一份建议书!