OPS10 最新の運用の基盤を構築する: 監視
Azure Exam Fundamental以外は有効期限2年感 クラウド技術の進歩は早いため
セッション資料 aks.ms/OPS10
RELIABILITY
- 今回のセッションは信頼性がテーマ
- 監視の業務はつらいなとおもっている人が多いのでは
- 監視は失敗すると信頼性を大きく失ってしまう
信頼性は顧客の視点で定義される
Modern Opsが役に立ちます
マイクロサービス化した環境を従来の方法で監視・障害調査するのは困難
- ツールを入れるのが難しい
- サービスが細かくなりすぎて原因究明が難しい
従来は想定された障害に対するアラート
- ModernOpsは想定外の障害に対応可能に、アラートノイズを最化使用してアクション可能に。
Azure Monitor
- ログの収集、分析をする機能の総称
Application Insight
可用性テスト
- テストの作成
- URLのPingテスト(認証を通してテストも設定可)
実装は簡単
- 多くの言語に対応
マップ機能
- 失敗
- エラーの内容を解析できる
- パフォーマンスの分析
- アクセス元の分析(OSとか)
ライブメトリックストリーム
ダッシュボード機能を自動で作ってくれる
AzureMonitor for Resource Group(プレビュー)
- リソースグループ→分析情報(プレビュー)
- リソースグループに入っているリソースの正常性をまとめて確認できる
- アプリケーションが動いていないまず、Azureのリソースが動いているかを確認する時に使う。障害の切り分け
Log Analytics
- ログの情報を貯めている
- ApplicationInsightでログの情報を可視化してくれる
- ログ情報をクエリを書いて抽出できる
- サマライズ機能
- クエリに対してアラートを設定することも可能
- レスポンスタイム、一定期間における失敗と成功のサマリ
App Service
- 問題の診断と解決
- AppServiceはよくできているのでおすすめ
- Avilability
- ベストプラクティスを確認できる
SQL Database
- Azure SQL Analytics
- デフォルトだと診断ログがオフになっているので気を付けて
- 診断設定をOnにすると使える
AKS
- Monitor For Container
コンテナーの監視
- クラスター、ノード、ポッドの情報などをまとめて監視できる
- CPUの利用状況など
概要→ログの表示 LogAnaliticsの機能
- 各ノードのディスクの使用率が90%超えたらアラート出したいとかできる
アクション可能なアラート
- Azure Debvpsチームの例 aka.ms/devops-journey
Site Reliability Engenner (SRE)
サイト信頼性エンジニアリング
- ソフトウェアエンジニアに運用設計を依頼したらどうなるかという発送
- 運用視点のフィードバックにより組織の信頼性が向上