Site Reliability Engineering: Measuring and Managing Reliabilityのススメ

SREの必須知識であるSLO,SLIやSLAを学ぶのにうってつけのCourseraコースを紹介します。

December 21, 2019
sre slo

もちろん講義・試験内容は言えないので、どのようなものであるか、なんで取得したかを紹介します。

SREが日本では少ないことも背景にはあるとは思いますが、日本で取られている方を見かけたことがないため本記事で少しサポートできれば嬉しいなと思います。

一言でこの資格をいうと

SLOをマスターしたい人のための講座・資格

いつ取得したのか

2019年7月

4月に新卒入社して2ヶ月の研修を経て配属されてあとに取得した。

なんで取得したのか

SREとしての視座を学ぶため。

やはりBackend、Frontend、プラットフォームチーム、インフラチームでもなくSREとして新卒入社したからにはSREとして求められるバリューを出さないといけないと思っていた。 よくそれらの違いを聞かれるが、SREは特に信頼性工学に根ざしている点が顕著でしょう。

SREとしての視座が最低限ベースにあって、SREとしての業務に取り組めるのではないかと思っている。またまだ浅学非才ですが、SREの基礎は身につけておきたかったため取得した。

講義の期間

4週間

4週間の間、日中は業務をやって、家に帰ってから講義を受けたり、レポートを書いたり、相当しんどかったです。時間的余裕があるときに受けるべきだなと思います。

コースでどのようなことが学べる?

本コースで含まれている講義は主に以下のような項目で構成されます。

  • サービスの信頼性を説明・測定する手法
  • SLO, SLIとSLAが一体どのようなものであるか
  • エラーバジェットがどのようなもので、どうやって使うのか
  • メトリクスに対して、実際にどのような手法で評価すべきか

SRE本やSite Reliability Workbook、The Art of SLOでも取り上げていない概念の紹介も一部あり、僕としては良かったです。

試験・レポート

試験

定期的に試験がある。いつでも自分のタイミングで受けることができる。 選択問題になっていて、規定以上の正解率で合格をすることができる。

英語であることや、SLOの実装方法など「これも、これも正解じゃないのか?」って悩むことがあって、難しい問題もある。 講義をしっかり聞いておかないと平気で不合格になってしまう。

もちろん不合格になっても再度受けることができますが、何回も不合格になるとペナルティがあり、半日ほど受けられなくなる。 1つのコースに4つの講座があって、それぞれが一週間の開講期間です。不合格になると開講期間で終えられず、終了できないケースもある。

レポート

内容は言えないですが、かなりの分量で信頼性にまつわるレポートを書かないといけないことがある。

この採点がシビアで、同期間に受講している別の生徒を3人以上に点をつけてもらう必要があり、ある規定以上の平均点を出さないと合格をすることができない。

採点者がいること、良心的な採点をしてもらえることが保証されていないため、精神的にしんどく、外因的な要因で修了できないケースがある。

辛いところ

  • 英語は辛い
  • 選択問題は間違え続けるとペナルティがあるのに「どの問題を間違えたか」のフィードバックがなく、辛い。
  • レポートは英作文ができないと辛い。長い文章を書く必要がある。TOEFLのWritingぐらい辛い
  • 他人に採点してもらったり、外因的なものが講義中にあるのが難しい
  • SLOについて詳しくなれるものの辛い、4週間は長い

感想

新卒配属されてすぐ取得したため、SREとしてのベースがキャリアの早期にできたのが良かったと思う。 「オレオレ信頼性」を持たず、いろんなプラクティスや理論と合わせてSREの視座を理解することができた。

またSRE本やSite Reliability Workbookなども同様に参照し、知識を付ける必要がある。

SRE本は入社前と4~5月の新卒研修期間中に読み、Site Reliability Workbookは7月に読んだ。しかしながら、理論的にSLOの概念がわかっても実装という面ではまだまだ力不足を感じる。

まだまだ僕のキャリアはこれから。SRE Tech LeadやSenior SREなどになるつもり。がんばります。