これから安定稼働と、心理的不安性を考える
オライリーから、 分厚い本が1冊、日本語訳されて出ましたね。
何かといいますと「SRE サイトリライアビリティエンジニアリング」という本です。
今年辺りから、日本のWEBサービス業界でも浸透してきていて、耳にした人も多いかと思います。去年は「プロダクトマネージャー」がそのワードでしたねw
SREとは、Google発祥のシステムの安定をどのように実現するか?を考える方法論のことです。
メルカリさんなどが、いち早く取り入れて、大きなカンファレンスでも発表していました。
どんなもの?
サービスの稼働率やレイテンシー(通信の遅延時間)、レスポンスタイム(応答速度)など、サービスの健全性を測る指標に基づいてITインフラを運用・改善する人たちのことです。
プロダクトを考えるエンジニアは、これにより機能の改善に集中することができます。急なトラフィックなどに怯えることなく、機能追加できるのは、心強いですね。
もちろん、プロダクトのエンジニアも、インフラの運用・改善の知識も必要なのですが、専門の集団と連携を取りながらなので、いいですね。
プロダクト開発の速度を安全に高める
いくらリリース日に間に合わせるように開発したって、品質が悪ければ、今後の稼働に不安がくっついてきます。
それは、その不安と向き合いながら、新機能を開発するわけなので、効率がいいわけ無い。
システムの信頼性を高めながらも、運用作業を減らし、機能追加に専念し、プロダクトを加速させるにはどうすればいいか?というのがこの本では説明してくれています。
通常運用中のシステムに人手が必要なら、それはバグだ!!
Google SREの人たちが言っていました。
ほっておいてもいいシステムにしたいですね、、
いろいろな事が書いてあります
まずは概念てきなところから、信頼性とは?にはじまり、緊急対応、アラート対応、オンコール対応、インシデント管理、障害の根本分析、テスト、過負荷などなど
まだ、読み始めたばかりですが、良いなと思ったことはなるべく共有して行きたいと思います。
この記事を書いた人
- PM(プロダクトマネージャー)目指して奮闘中、プログラムから、アーキテクト設計、サービス検討から、チームマネジメント、DevOps、いろいろやってます。
最近書いた記事
- 2017.11.22Design Sprint in Yahoo! ロッジ
- 2017.11.21iOS11 HEIF、HEVCの新コーデック
- 2017.11.21SRE 〜サイトリライアビリティエンジニアリング〜
- 2017.10.31リーンキャンバスを実践してみよう