はじめに
前回はオブザーバビリティに関して説明しました。今回はそのオブザーバービリティの運用において、重要視されているSLO(サービス レベル目標)について説明したいとおもいます。
SLOとは何か?
「SLO」とは「Service level objective」の略で 「サービス レベル目標」と呼ばれます。通信関連のサービスやクラウドサービスにおいて、事業者が自社のサービスレベル/サービス品質に関する目標/評価基準を内部目標として定めたものになります。
具体的には、SLAとしてサービスの月間の可用性時間を99.5%とする」とした場合、そのSLAを満たすために「内部目標として、サービスの月間の可用性時間を99.9%をSLOとする」のように定義したりします。
SLA/SLIの説明とSLA/SLO/SLIの違いについて
次に「SLO」と似た用語である「SLA」と「SLI」の説明と3つの違いについて解説します
SLA
SLA は「Service Level Agreement」の略で「サービス品質保証」と呼ばれ、サービス提供者とサービス利用者の間でアップタイム、応答性、責任などの測定可能な品質指標に関しての契約となります。
SLAは「お客様に対する約束」、「約束を守れなかった場合の結果」が示されています。
SLA における課題
一般的には、提供側にとって測定が困難な約束が定められているケースがSLA締結時の課題としてあがっています。
例えば、ある製品で報告された課題をサービス提供側が 24 時間以内に解決することをSLAで定義していた場合、サービス提供側で課題を診断するのに必要な情報を利用者側が送信するのに 24 時間以上かかった場合が明記されていない場合、サービス提供者側の与えられた 24 時間の時間枠は利用者側の遅延によって消費されてしまうのか、それとも利用者側の応答タイミングからカウントされるのかSLA では答える必要があるがそれについて回答していないケースが多く。そのような内容がSLA締結時に課題となっています。
SLIとは
SLI は「Service Level Indicator」の略で「サービス レベル指標」と呼ばれるものになります。
SLOで定めた目標に対して具体的な数値などを定めたものになります。
例えば、システムが契約時間のうち 99.5% 利用可能であると SLA に規定されている場合、SLO は 99.95% のアップタイムとなり、SLI はアップタイムの実際の指標となります。
SLIにおける課題
SLI を設定する際に、サービス利用者にとって実際には重要でない指標を多数設置してしまい、結果として 運用業務が必要以上に複雑になってしまう等があります。
この事態にならないように、SLOとSLIを設定する際にビジネスにとって重要な指標はなにかをよく吟味し、安易に追跡できるすべての指標を項目に入れない等の検討をする必要があります。
SLA/SLO/SLIの違いについて
「SLA」は外部とのサービス基準の合意内容に対して、「SLO」はSLAを達成するために内部で設定する目標、「SLI」はSLOを達成するために設定する指標となります。
SLO設定するときに重要なこと
前回説明したとおり、クラウドサービスのような「オブザーバビリティ」を重視する環境においては、従来のSLAだけでなく、ユーザーやビジネスに影響する指標を重要視するSLOが重要になってきます。
SLOを設定するためには、ビジネスへの影響を本質的に考えて設定していく必要があります。
ビジネス部門の方々と一緒に、販売サイトであれば、「時間あたりの商品販売数」や「PC/スマホ操作時の応答時間」だったり等、ビジネスにクリティカルに影響する指標はなにかを議論することが必要です。
また、設定基準に関しても困難な目標を設定しないように、期待値をコントロールしていくことが必要です。それがSLIの評価項目の設定にも影響していき、自分たちの運用の負荷に影響してくるからです。