クラウド監視・運用保守の品質がさらに進化。AMS 適用やインシデント対応品質を高める「運用分析プラットフォーム」を短期間で構築アイレット株式会社のクラウドを活用した導入事例
掲載日:2023年3月31日
AMS 適用やインシデント対応を高める「運用分析プラットフォーム」を短期間で構築
課題
- 部署単位で現状における次世代監視基盤、AMS(AdvancedMonitoringSystem)の導入状況を把握し、導入支援が必要な部署の特定や運用上のボトルネックを早期に発見し、推進していく必要があった。
対応と結果
- オープンソースの BI ツール Redash を使い、検討開始から約2週間で可視化できる状態へ。社内のフィードバックを受けながら UI/UX 改善を繰り返し、社内の MSP(マネージドサービスプロバイダ)チーム内部で重要度の高いプラットフォームへと成長させることができた。
- 部署ごとの AMS 導入率の調査や負荷が高いアラートの調査などに活用され、一次運用の業務負荷削減や効率化だけでなく、お客様へのサービス品質向上にもつながった。
アイレット株式会社(以下、アイレット)の MSP チームは、インシデント管理システム PagerDuty と自社開発した監視基盤 AMS を活用して24時間365日の監視運用における一次対応を自動化・高速化しています。今回は MSP 運用のさらなる品質向上と効率化を目指して取り組んだ「運用分析プラットフォーム」の開発事例をご紹介いたします。
部署ごとの AMS 導入率を可視化し、一次対応におけるボトルネックを早期に発見したい
アイレットが提供するクラウドの導入設計から構築・監視・運用・保守までのフルマネージドサービス「cloudpack」の強みの一つが、「24時間365日体制の監視運用」。この安定運用を実現しているのが MSP チームです。MSP ではインシデント管理システムの PagerDuty を導入し、監視対象となる全てのアラートを一元管理することで、監視業務の効率化と顧客サービスの信頼性向上につなげています。さらに、監視基盤を自社開発し、監視業務の一次対応を自動化する仕組みの導入も進めています。
MSP 運用に関わるデータは「PagerDuty のデータ」と「AMS の処理結果を New Relic 上に蓄積したデータ」の2種類に大別できますが、これらを統合した分析ができないことが課題でした。Amazon Athena を使ってクエリ集計するなどの工夫をすれば分析自体はできるものの、グラフなどで可視化するには一度 CSV 出力し、スプレッドシートなどでグラフを作成する必要があるため手間がかかることも問題になっていました。
そこで、主に部署ごとの一次対応におけるボトルネックとなっているポイントを早期に発見するため、BI ツールを活用した運用分析プラットフォームの開発に着手いたしました。
データ統合における課題を解決し、2週間で見える化を実現。担当と品質向上につながるポイントを議論しながら高速アップデート
まずは BI ツールをスピーディに立ち上げて、運用分析プラットフォームにとって必要な要素を議論できるようにすることが重要だと考えました。そこで、オープンソースの BI ツール「Redash」を活用し、まずはメタデータもキャッシュも全て EC2 上に構築することにしました。課題の認知から2週間程度で実用可能な最小限のダッシュボードをリリースしました。
ダッシュボードはメンバーのフィードバックを踏まえて拡充させていき、「AMS 導入の進捗」「部署ごとの自動化割合」「自動化の効果測定」「パフォーマンス計測」「運用負荷の高い案件やアラートの特定」などの機能を追加していきました。
その結果、部署単位での AMS 導入率が調査できるようになり、AMS 導入が進んでいない部署に対して、どのような課題があるのかをヒアリングや分析をするのに役立っています。
また、運用負荷が高いアラートの特定や対処すべきアラートの精査を行うことで業務最適化を図りました。MSP における一次対応の業務効率化を実現できたことは、お客様に対する MSP のサービス品質向上にもつながっています。
プラットフォームの利用が活発になるのにあわせ、安定した稼働と低い運用コストを実現するため、EC2 に全て載せていたアーキテクチャを Fargate、RDS、ElastiCache に分離する形に改善しました。
今後もアイレットでは、データを活用した業務改善に常に取り組むことで、スピーディーで高い品質のサービスをお客様に提供し続けてまいります。
運用分析プラットフォームの位置付け
システム構成図
使用プロダクト
・AWS Fargate
・AWS Systems Manager
・Amazon RDS
・Amazon ElastiCache for Redis
・Amazon Athena
・Amazon Cloud Watch
・Amazon Route53
・Application Load Balancer
利用システム
・Redash
・New Relic
案件名 | クラウド監視・運用保守の品質がさらに進化。AMS 適用やインシデント対応品質を高める「運用分析プラットフォーム」を短期間で構築 |
---|---|
クライアント | アイレット株式会社 |
お気軽にご相談ください。