不同级别的监控成熟度解释

一则或许对你有用的小广告

欢迎加入小哈的星球 ,你将获得:专属的项目实战 / Java 学习路线 / 一对一提问 / 学习打卡/ 赠书活动

目前,正在 星球 内带小伙伴们做第一个项目:全栈前后端分离博客项目,采用技术栈 Spring Boot + Mybatis Plus + Vue 3.x + Vite 4手把手,前端 + 后端全栈开发,从 0 到 1 讲解每个功能点开发步骤,1v1 答疑,陪伴式直到项目上线,目前已更新了 204 小节,累计 32w+ 字,讲解图:1416 张,还在持续爆肝中,后续还会上新更多项目,目标是将 Java 领域典型的项目都整上,如秒杀系统、在线商城、IM 即时通讯、权限管理等等,已有 870+ 小伙伴加入,欢迎点击围观

变化的步伐正在加快。组件尺寸正在缩小。监控解决方案一直在用日志数据、指标、状态报告和警报轰炸我们。一切都可以扩展,但我们没有。我们如何防止淹没在运行时数据中?

很多公司都面临着同样的问题。他们拥有如此庞大的数据量,却无法得到一个整体的统一概览。当他们的 IT 堆栈出现问题时,他们不知道问题出在哪里。是变化、过载、攻击还是其他原因?根据我们的经验,我们创建了 监控成熟度模型 。你的公司现在处于哪个级别?


级别 1 - 组件的健康状况

在第一级,您有不同的组件,但此级别的监控解决方案仅报告它们是启动还是关闭。如果您的 IT 堆栈出现问题,您会看到很多红点,并且您可能会收到很多电子邮件,说有什么东西坏了。因此,在第一级,您只会看到每个(单个)组件的状态和警报通知。

级别 2 - 不同级别的深度监控

我们见过的大多数公司都处于监控成熟度模型的第二级。在这个级别上,您从不同的角度和来源监控不同的级别。 Splunk 或 Kibana 等工具用于日志文件分析。 Appdynamics 或 New Relic 用于应用程序性能监控。最后,我们有像 Opsview 这样的工具来查看不同服务的组件状态。这是一件好事,因为你需要所有这些类型的数据。您拥有的数据越多,您对不同组件的了解就越多。因此,在这个级别,您能够更深入地了解您自己的团队正在使用的系统。

但是,如果您的 IT 堆栈深处某个地方出现故障,这会影响您的团队怎么办? IT 环境中的任何变化或小故障都会产生多米诺骨牌效应,并最终停止核心业务功能的交付。您的团队只能看到他们在总堆栈中的部分。针对这个问题,我们引入了三级监控成熟度模型。


级别 3 - 创建总体概览

在第三层,我们不仅查看所有状态、事件和指标,还查看依赖项和更改。因此,您需要了解整个 IT 堆栈,这些堆栈将使用您可用工具中的现有数据创建。要创建此概览,您需要来自以下工具的数据:

  • 监控工具(AppDynamics、New Relic、Splunk、Graylog2)
  • IT 管理工具(Puppet、Jenkins、ServiceNow、XL-Deploy)
  • 事件管理工具(Jira、Pagerduty、Topdesk)

重新使用来自不同工具的现有数据来创建整个 IT 堆栈的总体概览。在第三级,您可以升级整个组织。现在每个团队都可以将他们的团队堆栈视为整个 IT 堆栈的一部分。因此,团队可以更轻松地找到失败的原因。此外,团队现在可以在最需要的时候找到彼此。此级别还有助于公司获得统一的概览,同时让团队决定他们想要/需要使用哪些工具。

第 4 级 - 自动化操作

第四级是我们更大愿景的一部分,在这个级别我们将能够:

  • 在出现故障之前发送警报
  • 通过例如在服务过载之前扩展或重新路由服务来进行自我修复
  • 异常检测
  • 高级信号处理

你的下一步
详细了解我们的监控成熟度模型以及如何 改进当前的 IT 运营