障害調査・インシデントレスポンスのためのログ設計

### このガイドの目的システム障害時、復旧時間を短縮（MTTR短縮）するために必要なログの書き方と、調査手順を定義します。 ### 役立たずなログ vs 使えるログ - **NG**: `Error occurred.` (これだけでは何も分からない) - **OK**: `OrderProcessingFailed: order_id=123, reason=InventoryShortage, duration=150ms` ### 調査を高速化する3種の神器 1. **Request ID / Trace ID**: ユーザーの1クリックが、複数のマイクロサービスをどう流れたかを追跡するためのID。これが無いと「どこで詰まったか」を探すのに数時間かかります。 2. **Context**: エラーログには必ず「ユーザーID」「テナントID」「入力パラメータ」を含めてください。再現確認に必須です。 3. **Structured Logging**: JSONで出力し、「特定のテナントのエラー率」などを集計可能にしてください。 ### トラブル時の初動手順 1. **影響範囲の特定**: ログを `status >= 500` で検索し、発生件数と継続時間を確認。 2. **原因の切り分け**: 特定のサーバーだけか？特定のリリースバージョンからか？ 3. **詳細調査**: Trace IDを使って、エラーの前後のログ（Infoレベル）を確認し、ストーリーを再構築する。

この記事について

想定読者

BtoB SaaSの開発・運用担当者、情報システム部門

記事の目的

ログ管理における過剰投資を防ぎ、監査対応に必要な最低限の要件を整理する

根拠・参照情報

•AWS CloudTrail Documentation
•PCI DSS v4.0 Official Standard

最終更新日

2026-02-06

免責事項: 本記事は監査対応における判断支援を目的としており、法的・監査上の最終判断を保証するものではありません。最終的な意思決定は、必ず関連規格（PCI DSS, SOC2等）の公式文書や、貴社の法務・監査部門の判断を参照してください。

この記事について

関連リンク