SRE 〜サイトリライアビリティエンジニアリング〜

ネットワーク, マネージメント

これから安定稼働と、心理的不安性を考える

 
オライリーから、 分厚い本が1冊、日本語訳されて出ましたね。
何かといいますと「SRE サイトリライアビリティエンジニアリング」という本です。

今年辺りから、日本のWEBサービス業界でも浸透してきていて、耳にした人も多いかと思います。去年は「プロダクトマネージャー」がそのワードでしたねw

SREとは、Google発祥のシステムの安定をどのように実現するか?を考える方法論のことです。
メルカリさんなどが、いち早く取り入れて、大きなカンファレンスでも発表していました。

どんなもの?

サービスの稼働率やレイテンシー(通信の遅延時間)、レスポンスタイム(応答速度)など、サービスの健全性を測る指標に基づいてITインフラを運用・改善する人たちのことです。

プロダクトを考えるエンジニアは、これにより機能の改善に集中することができます。急なトラフィックなどに怯えることなく、機能追加できるのは、心強いですね。

もちろん、プロダクトのエンジニアも、インフラの運用・改善の知識も必要なのですが、専門の集団と連携を取りながらなので、いいですね。

プロダクト開発の速度を安全に高める

いくらリリース日に間に合わせるように開発したって、品質が悪ければ、今後の稼働に不安がくっついてきます。
それは、その不安と向き合いながら、新機能を開発するわけなので、効率がいいわけ無い。

システムの信頼性を高めながらも、運用作業を減らし、機能追加に専念し、プロダクトを加速させるにはどうすればいいか?というのがこの本では説明してくれています。

通常運用中のシステムに人手が必要なら、それはバグだ!!
Google SREの人たちが言っていました。

ほっておいてもいいシステムにしたいですね、、

いろいろな事が書いてあります

まずは概念てきなところから、信頼性とは?にはじまり、緊急対応、アラート対応、オンコール対応、インシデント管理、障害の根本分析、テスト、過負荷などなど

まだ、読み始めたばかりですが、良いなと思ったことはなるべく共有して行きたいと思います。

この記事を書いた人

にょこた

PM(プロダクトマネージャー)目指して奮闘中、プログラムから、アーキテクト設計、サービス検討から、チームマネジメント、DevOps、いろいろやってます。