Site Reliability Engineering チームの Engineering Manager 尾形(@nobu666)です。12月6日に、株式会社ハートビーツ様主催の「hbstudy#86」にて、スマートニュースのSREについての発表をしてきました。思いつく限りスマートニュースの SRE に関する話を盛り込んだつもりです。ぜひご一読いただき、何かしら反応いただけると嬉しいです。
hbstudy
hbstudyは主にインフラエンジニアを対象にした勉強会で、なんとすでに86回を数える息の長い勉強会になっています。SRE Lounge という 株式会社 UZABASE 様の SRE チームが主催している勉強会に以前登壇させていただいた際のご縁で、Facebook の SRE Community 経由でハートビーツ藤崎様よりお声がけいただきました。このような機会をいただき、改めて御礼申し上げます。
発表内容
なんと2時間枠、ということで盛り盛りな内容となりました。事前に練習とか全くしなかったのでタイムキープが心配でしたが、1時間40分 + 質疑10分でほぼ時間どおりに話すことができました。
- チームの構成(SREとData Engineer)
- SREの業務範囲
- Engineerとの人員構成
- 基本的なシステムアーキテクチャ
- AWSのタグの運用
- IT統制
- 監視
- 障害対応フローと振り返り
- プロダクションミーティング
- SREの採用
- SREの今後
スマートニュースの SRE でちょっと変わっていることというと、 On-call をやっていないことかと思います。なぜそうなっているのか、実際どう運用しているのか、資料にはのせきれず口頭で補足してしまっているところも多々あります。当日は YouTube でもライブ公開が行われており、録画をみることができるようになっております。ちょっと時間が長いですが、 YouTube を御覧いただきながら資料を見ていただくことでよりご理解いただけるかと思います。
まとめ
主に /deep_ping
の実装や、障害対応フローに関して比較的多く反応をいただきました。「ちゃんとしてて羨ましいです」というような反応も頂いたのですが、「SRE の今後」でも触れたようにまだまだ出来ていないことも山のようにあります。特に Global 対応と Microservices 対応に関してはそれほど猶予のない状況になっています。システムアーキテクチャのみならず、組織やチームのあり方とともに見直しを進める必要があり、大変ではありますが大きな変化を起こせるフェーズに入りつつあるなということを感じでいます。
SRE 募集中!!
発表にもある通り、スマートニュースに所属するエンジニアに対して SRE メンバーの数が圧倒的に足りていません。「世界中の良質な情報を必要な人に送り届ける」というミッションを達成するために、まだまだやらなければならないことが多くあります。よりグローバルに最適化させ、高速で安定したアーキテクチャへ進化させていく必要があります。
少しでもそういう環境にご興味をお持ちの方がおりましたら、ぜひお気軽にご応募ください。まずはランチでもご一緒しながら、軽く話を聞いてみたいということでも構いません!