こちらの記事は カケハシ Advent Calendar 2025 の 3日目の記事になります。
はじめに
カケハシのSRE組織は、各プロダクトにEmbedded SREが入り、横断側のPlatform SREが全体最適を支える形で動いています。
参考資料:
2024年末には、技術・組織の複雑化に伴い、横断フィードバックループと役割/責任(RACI)の明確化が不可欠だという課題意識を置いていました。
2025年の前進を一言でまとめると、次の2つです。
- SRE横断定例を立ち上げ、Embedded同士の“共有文化”と横断課題の議論の場を作れたこと
- その場を使ってRACI議論を進め、責任分界の合意形成を前進させられたこと
横断定例で“共有が前提の状態”を作れた
Embedded SREが複数プロダクトに点在する構造では、情報共有や優先度の擦り合わせがどうしてもアドホックになりがちでした。 例えば、各プロダクトで発生したインシデント対応の知見が個別のSlackチャンネルに埋もれたり、共通の技術課題に気づいても個別に連絡を取り合う必要があったりと、横断的な情報共有が場当たり的になっていました。
そこで2025年、隔週30分のSRE横断定例を立ち上げ、各Embedded SREが状況・課題・困りごとを持ち寄り、横断側も全体視点の論点を共有する場を常設化しました。 例えば、AWSリソースの命名規則を横断で統一したいという課題が定例で議論され、各プロダクトの現状や要件を持ち寄って共通の命名規則を策定できました。
結果として、
- Embedded SRE同士が互いの状況を自然に把握できる
- 共通/横断課題が定例の議題として上がってくる構造になる
- 学びや判断の背景が横に流れ、再利用されやすくなる
という、「横断で考えることが特別ではない状態」を作れたのが今年の大きな成果でした。
定例が意思決定の場になり、RACI議論が進んだ
横断定例で現場の状況を持ち寄る中で、昨年の診断通り役割と責任のズレ(RACI)が顕在化しました。 Platform側に依頼や期待が寄りやすい一方、Embedded側の活動も深まり、境界が揺れやすくなっていたためです。 例えば、インフラの運用責任について、あるプロダクトではEmbedded SREが完全に担っている一方、別のプロダクトではアプリケーション側も担当する前提になっていたりと、Embedded SREの責任範囲が各チームでバラバラになっていました。
今年はこのズレを定例で継続的に扱うことで、
- Embeddedはプロダクト最適の信頼性課題を担う
- Platform/Enabling は共通基盤と横展開・標準化で全体最適を担う
- インシデント/セキュリティはEM主導+SRE支援で一貫性を持たせる
といったレベルの責任分界について、合意が大きく進みました。 一方で、依頼フローや優先度調整など運用に落とす部分は来年の宿題として残っています。
2026年に向けて
2025年は、横断定例という場を作り、SRE組織としての土台を一段固められた年でした。 来年はこの土台を運用に落とし込み、横断で支える力をもっと自然に発揮できる状態を目指します。 関わってくれた各プロダクトの皆さん、そして横断で一緒に議論し続けてくれたSREのみなさんに感謝しつつ、2026年も引き続き前に進めていきます。
(文責 Platform SRE 乙二)