4 - Objetivos do Nível de Serviço

Objetivos do Nível de Serviço - SRE

Começar. É Gratuito
ou inscrever-se com seu endereço de e-mail
4 - Objetivos do Nível de Serviço por Mind Map: 4 - Objetivos do Nível de Serviço

1. SLI - Indicador de Nível de serviço

1.1. Medida quantitativa

1.1.1. O que deve ser medido?

1.1.1.1. Informações coletadas no monitoramento

1.1.1.2. Dados brutos em uma janela de monitoração

1.1.1.3. Transformadas em uma taxa, média ou percentual

1.1.1.4. Expresso em número de 9's

1.1.1.4.1. 99,9%

1.1.1.4.2. 99,999%

1.1.1.4.3. 99,95%

1.1.1.5. Algumas são difíceis de medir ou de interpretar.

1.1.2. Exemplos

1.1.2.1. Disponibilidade

1.1.2.1.1. Fração de tempo em que um serviço é utilizável.

1.1.2.2. Latência

1.1.2.2.1. Tempo de resposta

1.1.2.3. Taxa de Erro

1.1.2.3.1. Requisições com problemas

1.1.2.4. Throughput

1.1.2.4.1. Número de requisições

1.1.2.5. Durabilidade

1.1.2.5.1. Sistemas de armazenagem

1.2. Indicadores na prática

1.2.1. Escolha dos indicadores

1.2.1.1. Escolher somente os mais importantes

1.2.1.1.1. Evitar sobrecarga de indicadores

1.2.1.1.2. Evitar deixar de fora indicadores importantes

1.2.1.1.3. O que os usuários esperam?

1.2.1.2. Sistemas voltados ao usuário

1.2.1.2.1. Disponibilidade

1.2.1.2.2. Latência

1.2.1.2.3. Throughput

1.2.1.3. Sistemas de armazenagem

1.2.1.3.1. Latência

1.2.1.3.2. Disponibilidade

1.2.1.3.3. Durabilidade

1.2.1.4. Sistemas de Big Data

1.2.1.4.1. Throughput

1.2.1.4.2. Latência fim a fim

1.2.1.5. Todos os sistemas

1.2.1.5.1. Correção!!!

1.2.1.5.2. A resposta correta foi devolvida?

1.2.1.5.3. Os dados corretos foram recuperados?

1.2.1.5.4. A análise correta foi feita?

1.2.2. Coletando indicadores

1.2.2.1. Nos servidores

1.2.2.1.1. Análise de logs

1.2.2.1.2. Sistemas de monitoramento

1.2.2.1.3. Pode fazer com que problemas percebidos pelos usuários passem despercebidos pelo SRE...

1.2.2.2. Nos clientes

1.2.2.2.1. Cliente simulado

1.2.2.2.2. Cliente Real

1.2.3. Agregação das informações

1.2.3.1. Cuidados com a média

1.2.3.2. Usar de preferência o percentual

1.2.3.3. Cuidado com falácias estatísticas

1.2.4. Padronização dos indicadores

1.2.4.1. Definições comuns para os SLI

1.2.4.1.1. Intervalo de agregação

1.2.4.1.2. Regiões de Agregação

1.2.4.1.3. Frequência das medições

1.2.4.1.4. Quais requisições?

1.2.4.1.5. Como os dados são adquiridos?

1.2.4.1.6. Latência

1.2.4.1.7. O descrição do SLI deve claramente o que é bom e o que é ruim para a medição

1.2.4.2. Templates de SLI simplificam a definição dos SLO

1.2.4.2.1. 99%(média calculada em um minuto) das chamadas RPC Get serão concluídas em menos de 100Ms(medidas em todos os servidores backend)

1.2.4.2.2. 99% das chamadas RPC Get serão concluídas em menos de 100Ms.

2. SLO - Objetivo de Nível de serviço

2.1. Define as metas e limites para os SLI

2.1.1. Meta superior

2.1.2. Meta inferior

2.1.3. Envolve questões técnicas, de negócios e expectativa dos usuários

2.1.4. Define metas da equipe de SRE e desenvolvimento.

2.1.5. Pode ser divulgado

2.1.5.1. Evita reclamações sem fundamento

2.1.5.2. Evita expectativas irreais

2.2. Objetivos na prática

2.2.1. Principal conceito

2.2.1.1. Com o que seus usuários se importam?

2.2.1.1.1. Normalmente é difícil de medir

2.2.1.1.2. Usar uma aproximação

2.2.1.2. Não use tudo o que você pode medir ou o que é fácil de medir.

2.2.1.2.1. Gera SLO menos úteis

2.2.1.3. Definir SLO primeiro

2.2.1.3.1. Depois definir SLI específicos

2.2.2. Tipos de SLO

2.2.2.1. SLO Atingivel

2.2.2.1.1. Vem da analise de dados históricos

2.2.2.1.2. ou dos dados de monitoração

2.2.2.1.3. Desvantagem- Assume que os usuários estão satisfeitos

2.2.2.2. SLO Aspiracional

2.2.2.2.1. Como base em requisitos do negócio

2.2.2.2.2. Pode ser difícil de atingir

2.2.3. Exemplos

2.2.3.1. Normal

2.2.3.1.1. 99% das chamadas RPC Get serão concluídas em menos de 100Ms.

2.2.3.2. Várias metas para o mesmo indicador

2.2.3.2.1. 90% das chamadas RPC Get serão concluídas em menos de 1Ms.

2.2.3.2.2. 99% das chamadas RPC Get serão concluídas em menos de 10Ms.

2.2.3.2.3. 99,9% das chamadas RPC Get serão concluídas em menos de 100Ms.

2.2.3.3. Objetivos separados para situações específicas no mesmo cenário.

2.2.3.3.1. 95% das chamadas RPC Set dos clientes interessados em Throughput serão concluídas em menos de 1s.

2.2.3.3.2. 99% das chamadas RPC Set com payloads < 1Kb dos clientes interessados em latência serão concluídas em menos de 10 ms.

2.2.4. SLO atendido 100%

2.2.4.1. Não é desejável e nem realista

2.2.4.1.1. Reduz taxa de inovação

2.2.4.1.2. Exige soluções caras e conservadoras

2.2.4.2. Taxa de violação do SLO

2.2.4.2.1. Taxa com que o SLO pode deixar de ser atendido

2.2.4.2.2. É um SLO para atender outros SLO

2.2.4.2.3. Indicador útil para medir a saúde do serviço

2.2.4.2.4. Deve ser monitorada de forma diária ou semanal

2.2.5. Definindo metas

2.2.5.1. Não é uma escolha puramente técnica

2.2.5.1.1. Negociação

2.2.5.1.2. Time-to-market

2.2.5.1.3. Disponibilidade de hardware

2.2.5.1.4. Orçamento

2.2.5.2. Dicas para escolha de metas

2.2.5.2.1. Não escolha uma meta com base no desempenho atual

2.2.5.2.2. Mantenha a simplicidade

2.2.5.2.3. Evite absolutos

2.2.5.2.4. Quanto menos SLO's, melhor

2.2.5.2.5. A perfeição pode esperar

2.2.6. Outros usos de SLO

2.2.6.1. Fator importante na definição de prioridades

2.2.6.1.1. Para a equipe de SRE

2.2.6.1.2. Para a equipe de desenvolvimento

2.2.6.2. O SLO pode ser um forte motivador

2.2.7. Medidas de controle

2.2.7.1. 1 - Monitore e calcule os SLI's

2.2.7.2. 2 - Compare os SLI's com os SLO's e decida se uma ação é necessária ou não

2.2.7.3. 3 - Se uma ação é necessária, descubra o que deve acontecer para atender a meta

2.2.7.4. 4 - Execute a ação

2.2.7.5. Exemplo

2.2.7.5.1. O passo 2 mostra que a latência das requisições está aumentando

2.2.7.5.2. No passo 3 é feito um teste de utilização de CPU pelo processo

2.2.8. Últimos conselhos

2.2.8.1. Divulgação dos SLO

2.2.8.1.1. Define expectativas para o comportamento do sistema

2.2.8.1.2. Evita expectativas exageradas dos usuários

2.2.8.2. Margem de segurança

2.2.8.2.1. Usar internamente um SLO mais rigoroso do que o que foi anunciado para os usuários

2.2.8.3. Não exagere

2.2.8.3.1. Se o desempenho de um sistema for melhor do que o SLO divulgado, em pouco tempo os usuários irão passar a contar com o desempenho atual e não com o divulgado

2.2.8.3.2. Vale até deixar o sistema Offline de forma deliberada

2.2.8.4. Revisão os SLO periodicamente

2.2.8.4.1. Seu SLO não está escrito em pedra

3. SLA - Acordos de Nível de Serviço

3.1. Consequências por deixar de atender um SLO

3.1.1. Normalmente financeiras

3.1.2. Mas nem sempre

3.2. Contrato

3.2.1. Implícitos ou Explícitos com os usuários

3.2.1.1. Google Search

3.2.1.2. Google Works

3.2.2. O que acontecerá se os SLO's não forem atendidos

3.3. SRE normalmente não se envolve

3.3.1. Definidos por regras de negócios e produtos

3.3.2. Equipe jurídica

3.3.3. O SRE ajuda a compreender

3.3.3.1. Probabilidades

3.3.3.2. Dificuldades para atender

3.3.4. O SRE atua para evitar o acionamento do SLA

3.4. SLA na prática

3.4.1. Cuidados com a divulgação

3.4.2. Usar as dicas para definição do SLO

4. Quiz Time

5. Introdução

5.1. Impossível administrar um serviço

5.1.1. Sem conhecer os comportamentos importantes

5.1.2. Sem conhecer os comportamentos corretos

5.1.3. Sem saber como mensurar e avaliar estes comportamentos

5.2. Escolher a métrica correta ajuda a tomar a atitude correta além de deixar a equipe confiante.

5.2.1. Muitas métricas causa paralisia operacional

5.2.2. Focado nas expectativas do usuário

5.3. Experiência, Intuição e compreensão das necessidades do usuário para definir:

5.3.1. SLI - Service Level Indicator

5.3.1.1. Quais métricas são importantes

5.3.1.2. O que deve ser medido?

5.3.2. SLO - Service Level Objectives

5.3.2.1. Quais valores queremos para estas métricas

5.3.2.2. Quais são os objetivos?

5.3.3. SLA - Service Level Agreements

5.3.3.1. Como reagir se não alcançarmos o objetivo

5.3.4. Quem define?