如何密切关注你的 Atlassian 部署 负责管理企业 IT 的人员都不希望被告知有应用程序崩溃,特别是由终端客户转告。监控是一种关键的工具,但经常会被忽视。它可以帮助运维团队避免从用户那里听到有应用程序崩溃的尴尬,更重要的是,可以减少发生中断和错误的频率。 在这篇博文中,我们将研究如何将监控应用于你的内部 Atlassian 部署,以防止事故发生并限制停机时间,以及在你的应用程序的规模和功能不断增长的过程中,如何利用监控来优化性能。 监控工具 在我们讲述你应该监控什么之前,先让我们讨论一下监控工具。一般来说,大多数最简单形式的监控工具可分为三个部分:可以存储时间序列数据(名为“指标”)的数据库、能可视化这些指标的前端以及通过各种来源获取数据的方法。 很多工具都会有一个额外的重要组成部分 ── 当指标超过定义的阈值时提醒你的一种方式(更多关于如何设置警报阈值的信息将在稍后提供)。典型的设置将包括一个带指标存储数据库的中央应用程序,以及一个用于实现可视化并通过电子邮件发送警报的网络 UI,由多个数据转发器或代理将数据从应用程序或基础设施组件发送回中央集线器。 如今,市场上有大量的监控工具可用,选择使用哪种工具在很大程度上取决于什么最适合你的运维团队 ── 没有万能的灵丹妙药。其中有许多大受欢迎的商业产品,比如 AppDynamics、 New Relic、 Dynatrace 和 Datadog 等,它们都具有出色的特性,但标价可能会很高。 如果你要在私有云中托管 Atlassian 插件,比如亚马逊云计算服务或 Microsoft Azure,你可能会对集成到云提供商中的监控解决方案感兴趣,比如 AWS CloudWatch 或 Azure Monitor。 或者,如果你偏向于选择 DIY 方法,那么有大量高度可定制的开源工具可用。我们通过在内部使用 Prometheus with Grafana 获得了成功,但其他选项可能包括 Nagios 或 Elastic Stack (ELK)。这些工具的完整比较应该通过专门的博文进行介绍,因此我们无法在本文中加以详细讨论。 基础设施监控 基础设施监控是一个很好的起点(我所希望的是任何运维专业人士的常识)。 Atlassian 插件监控基础设施非常类似于大部分其他的基础设施。你会想要为常见指标设置监控,比如 CPU、磁盘空间和内存利用率。 监控 CPU 可成为你的应用程序的一个很好的性能指标。常常当像 Jira 软件开发选项这样的应用程序遇到问题时,如果网络应用程序停止运行,你会看到 CPU 利用率飙升。CPU...