技術書典19に参加します!!

技術書典19

章構成

あのPagerDuty FANBOOKの熱量が返ってきた!!堂々のVOL.2が見参です!!

  • 第1章 PagerDuty とAnsible の連携によるインシデント対応自動化の実践 @hebere-K
  • 第2章 PagerDuty & Terraform @raki
  • 第3章 重大インシデントのときこそ’正しく動く’Incident Workflowsが守るチームの判断力 @ymotomu
  • 第4章 ログ監視にまつわるエトセトラ @chacco38
  • 第5章 PagerDuty Status Page をわかりたい @morihaya55
  • 第6章 インシデント管理を自動化していくにあたって考えたいこと @jacopen

サークル配置場所

技術書典19オフラインでは"お01"でお待ちしております。

技術書典19

目次全文

以下は目次の全文です。

  • 第 1 章 PagerDuty と Ansible の連携によるインシデント対応自動化の実践
    • 1.1 はじめに
    • 1.2 PagerDuty Free Trial Plan の制約と活用策
    • 1.2.1 Free Trial Plan の制約事項
    • 1.2.2 制約を活かした設計方針
    • 1.3 Ansible との連携実装
    • 1.3.1 Events API v2 による基本連携
    • 1.3.2 Ansible Playbook での PagerDuty 連携
    • 1.4 実践的な自動化シナリオ
    • 1.4.1 シナリオ 1:Web アプリケーション障害対応
    • 1.4.2 シナリオ 2: データベース接続障害対応
    • 1.5 監視とフィードバックの実装
    • 1.5.1 Ansible 実行ログの PagerDuty 連携
    • 1.5.2 パフォーマンス指標の収集
    • 1.6 トラブルシューティングとベストプラクティス
    • 1.6.1 一般的な問題と対策
    • 1.6.2 セキュリティ考慮事項
    • 1.7 運用効果の測定と改善
    • 1.7.1 KPI の設定と測定
    • 1.7.2 継続的な改善プロセス
    • 1.8 まとめ
  • 第 2 章 PagerDuty & Terraform
    • 2.1 はじめに
    • 2.2 じゅんび
    • 2.2.1 Terraform
    • 2.2.2 PagerDuty
    • 2.2.3 サンプルコードとディレクトリ構成
    • 2.3 ぜんかい
    • 2.4 ためそう service custom field
    • 2.5 さいごに
  • 第 3 章 重大インシデントのときこそ’正しく動く’ ― Incident Workflows が 守るチームの判断力
    • 3.1 PagerDuty 自動化機能の全体像と Incident Workflows の位置付け
    • 3.2 「協力・解決」フェーズと課題
    • 3.3 Incident Workflows のユースケース
    • 3.3.1 War Room(緊急対策本部)の立ち上げ
    • 3.3.2 1 次切り分け(自動診断)
    • 3.3.3 Production 環境へのアクセス権取得
    • 3.4 まとめ
  • 第 4 章 ログ監視にまつわるエトセトラ
    • 4.1 初動対応を遅らせるこんなログ監視はもうイヤだ
    • 4.2 失われたログイベントの価値をとりもどせ
    • 4.2.1 ネイティブツールでクールに解決
    • 4.2.2 サードパーティツールでスマートに解決
    • 4.3 イベント管理として使おうとしないで
    • 4.4 ログトラップはクラウド時代にも必要なのか
    • 4.5 本章で伝えたかったこと
  • 第 5 章 PagerDuty Status Page をわかりたい
    • 5.1 はじめに
    • 5.2 Status Page とは
    • 5.3 PagerDuty Status Page とは
    • 5.4 Internal Status Page について
    • 5.4.1 Business Service と Technical Service について
    • 5.5 External Status Page について
    • 5.5.1 公開範囲の違い
    • 5.5.2 カスタマイズ性の違い
    • 5.6 おわりに
  • 第 6 章 インシデント管理を自動化していくにあたって考えたいこと
    • 6.1 はじめに
    • 6.2 なぜ自動化を行うのか
    • 6.2.1 トイルの削減
    • 6.3 自動化を行うには何を考慮すべきか
    • 6.3.1 自動化の対象を選ぶ
    • 6.3.2 段階的なアプローチ
    • 6.3.3 自動化の実装範囲
    • 6.3.4 信頼性の確保
    • 6.3.5 実装時の実践ポイント
    • 6.4 まとめ
  • おわりに