運用業務の自動化といっても、もちろんそれを実際に進めていくことは簡単ではありません。既存の業務を変革するには、今後の運用業務がどうあるべきかというビジョンが必要です。さらに、運用業務の全ての作業を自動化することは困難であるため、既存業務の一番のペインポイントを解消するためにどの部分を自動化するか、適切な優先順位をつけながら検討しなければなりませんでした。
監視ツールについては、キンドリルとともに現行の監視ツールの課題を整理しながら、コストやユーザビリティなども含めて検討を進め、「Datadog」を採用しました。
しかし、当然ながら導入しただけで成果が上がるとは限りません。開発や障害発生時の対応を迅速化するために、Datadogは運用を担うITインフラ運用管理部のツールではなく、開発部門と共通の監視ツールとして定着させるという狙いがありました。両者の壁を無くし、共通理解を持ってツールを利用するためにも工夫が必要です。
「システムのトラブルは、運用部門が問題に気づいて初めて対応が始まることが一般的ですが、それではレスポンスの遅延という新たな脅威に対応しきれません。運用部門と開発部門が同じ理解をもちながら、さらにトラブルを未然に防ぐ積極的な姿勢を持つために、時間をかけて丁寧にコミュニケーションを取る必要があると考えました」とITインフラ運用管理部長 正木 聡氏は振り返ります。
この取り組みによるProgress
アフラックの新しい価値創出を支えるベースが整う
こうした取り組みによって、アフラックにおけるインフラ運用業務ではさまざまな効果が得られています。
- Ansibleとワークフローシステムを組み合わせることで、開発部門からの依頼作業を自動化。依頼を受けて手動で対応した作業は、3カ月間で1,981件あったのが828件と58%削減。また平均3営業日かかっていたリードタイムがゼロに
- Ansible導入によって業務省力化が進んだことで、運用担当者は別の業務に充てる時間をより確保できるように。自動化によって運用部門側の対応コストが削減されたことで、開発部門は運用部門へ気軽に作業依頼できるように
- ビジネス単位のスクワッド体制に変更し、開発部との連携を強化した結果、複雑なシステムとアプリ構成の理解が促進され、不要アラート整理などの対応が進んだことで月間アラート件数を64%削減
- オブザーバビリティの考えに基づく高品質なシステム監視の仕組みを構築したことで障害の未然検知・予防も推進
- システム目線ではなく、ユーザー目線での監視シナリオを250種類用意。手作業に依存せず、必要な情報を10分間隔で自動取得
- Datadogにより、トラブルシューティング時の影響範囲の確認やその後の調査対応を迅速化
- SRE運用体制の結果として、エンジニアリングの目的自体をコスト削減から信頼性の向上にシフトし、より最適な環境づくりに注力できるように
またキンドリルについても、西岡氏はこう評価します。
「我々4人の一致した意見として、キンドリルは私たちのビジネス戦略やIT戦略を理解していただいた上で寄り添い、運用の高度化や新しいサービスの提案をしていただけました。キンドリルの利益重視ではなく、お互いにメリットのある提案が可能なのも、ベンダーニュートラルである強みでしょう」
アフラックとのこれからの取り組みに関しては、キンドリルのサイト・リライアビリティ・エンジニア 竹屋 正樹も「キンドリルの統合プラットフォームであるKyndryl Bridgeを介して日々の運用業務を可視化することで、新しい気付きを得ること、そして誰もが同じ運用業務を実施できるように平準化することを目指します」と話します。
最後に正木氏は、今後の展望とそれを支援するキンドリルへの期待を語ります。
「アフラックの新しい価値創出を支えるインフラやその運用のベースは整ってきました。今後はインフラと開発のボーダレス化をさらに進めるつもりです。キンドリルには私たちがカバーできていない世界の事例や最新ソリューションを紹介していただき、先進事例を一緒に作っていきたいと思っています」