4 - Objetivos do Nível de Serviço

Objetivos do Nível de Serviço - SRE

Começar. É Gratuito
ou inscrever-se com seu endereço de e-mail
Rocket clouds
4 - Objetivos do Nível de Serviço por Mind Map: 4 - Objetivos do Nível de Serviço

1. SLI - Indicadores de Nível de serviço

1.1. Medida quantitativa

1.1.1. O que deve ser medido?

1.1.1.1. Informações coletadas no monitoramento

1.1.1.2. Dados brutos em uma janela de monitoração

1.1.1.3. Transformadas em médias ou percentual

1.1.1.4. Expresso em número de 9's

1.1.1.4.1. 99,9%

1.1.1.4.2. 99,999%

1.1.1.4.3. 99,95%

1.1.1.5. Algumas são difíceis de medir

1.1.2. Exemplos

1.1.2.1. Disponibilidade

1.1.2.1.1. Tempo UP

1.1.2.2. Latência

1.1.2.2.1. Tempo de resposta

1.1.2.3. Taxa de Erro

1.1.2.3.1. Requisições com problemas

1.1.2.4. Throughput

1.1.2.4.1. Número de requisições

1.1.2.5. Durabilidade

1.1.2.5.1. Sistemas de armazenagem

1.2. Indicadores na prática

1.2.1. Escolha dos indicadores

1.2.1.1. Escolher somente os mais importantes

1.2.1.1.1. Evitar sobrecarga de indicadores

1.2.1.1.2. Evitar deixar de fora indicadores importantes

1.2.1.1.3. O que os usuários esperam?

1.2.1.2. Sistemas voltados ao usuário

1.2.1.2.1. Disponibilidade

1.2.1.2.2. Latência

1.2.1.2.3. Throughput

1.2.1.3. Sistemas de armazenagem

1.2.1.3.1. Latência

1.2.1.3.2. Disponibilidade

1.2.1.3.3. Durabilidade

1.2.1.4. Sistemas de Big Data

1.2.1.4.1. Throughput

1.2.1.4.2. Latência fim a fim

1.2.1.5. Todos os sistemas

1.2.1.5.1. Correção!!!

1.2.1.5.2. A resposta correta foi devolvida?

1.2.1.5.3. Os dados corretos foram recuperados?

1.2.1.5.4. A análise correta foi feita?

1.2.2. Coletando indicadores

1.2.2.1. Nos servidores

1.2.2.1.1. Sistemas de monitoramento

1.2.2.1.2. Análise de logs

1.2.2.2. Nos clientes

1.2.2.2.1. Tempo para carregar uma página no navegador

1.2.3. Agregação das informações

1.2.3.1. Cuidados com a média

1.2.3.2. Usar de preferência o percentual

1.2.3.3. Cuidado com falácias estatísticas

1.2.4. Padronização dos indicadores

1.2.4.1. Definições comuns para os SLI

1.2.4.1.1. Intervalo de agregação

1.2.4.1.2. Regiões de Agregação

1.2.4.1.3. Frequência das medições

1.2.4.1.4. Quais requisiões?

1.2.4.1.5. Como os dados são adquiridos?

1.2.4.1.6. Latência

1.2.4.2. Templates de SLI para métricas comuns

1.2.4.2.1. 99%(média calculada em um minuto) das chamadas RPC Get serão concluídas em menos de 100Ms(medidas em todos os servidores backend)

1.2.4.2.2. 99% das chamadas RPC Get serão concluídas em menos de 100Ms.

2. SLO - Objetivos de Nível de serviço

2.1. Define as metas e limites para os SLI

2.1.1. Meta superior

2.1.2. Meta inferior

2.1.3. Envolve questões técnicas, de negócios e expectativa dos usuários

2.1.4. Precisa ser divulgado

2.2. Objetivos na prática

2.2.1. Principal conceito

2.2.1.1. Com o que seus usuários se importam?

2.2.1.1.1. Normalmente é difícil de medir

2.2.1.1.2. Usar uma aproximação

2.2.1.2. Não use o que você pode medir ou o que é fácil de medir.

2.2.1.2.1. Gera SLO menos úteis

2.2.1.3. Definir SLO primeiro

2.2.1.3.1. Depois definir SLI específicos

2.2.2. Exemplos

2.2.2.1. Normal

2.2.2.1.1. 99% das chamadas RPC Get serão concluídas em menos de 100Ms.

2.2.2.2. Várias metas para o mesmo indicador

2.2.2.2.1. 90% das chamadas RPC Get serão concluídas em menos de 1Ms.

2.2.2.2.2. 99% das chamadas RPC Get serão concluídas em menos de 10Ms.

2.2.2.2.3. 99,9% das chamadas RPC Get serão concluídas em menos de 100Ms.

2.2.2.3. Objetivos separados para situações específicas no mesmo cenário.

2.2.2.3.1. 95% das chamadas RPC Set dos clientes interessados em Throughput serão concluídas em menos de 1s.

2.2.2.3.2. 99% das chamadas RPC Set com payloads < 1Kb dos clientes interessados em latência serão concluídas em menos de 10 ms.

2.2.3. SLO atendido 100%

2.2.3.1. Não é desejável e nem realista

2.2.3.1.1. Reduz taxa de inovação

2.2.3.1.2. Soluções caras e conservadoras

2.2.3.2. Taxa de violação do SLO

2.2.3.2.1. Taxa com que o SLO pode deixar de ser atendido

2.2.3.2.2. É um SLO para atender outros SLO

2.2.3.2.3. Indicador útil para medir a saúde do serviço

2.2.3.2.4. Usada em conjunto com o Error Budget

2.2.3.2.5. Deve ser monitorada de forma diária ou semanal

2.2.4. Definindo metas

2.2.4.1. Não é uma escolha puramente técnica

2.2.4.1.1. Negociação

2.2.4.1.2. Time-to-market

2.2.4.1.3. Disponibilidade de hardware

2.2.4.1.4. Orçamento

2.2.4.2. Dicas para escolha de metas

2.2.4.2.1. Não escolha uma meta com base no desempenho atual

2.2.4.2.2. Mantenha a simplicidade

2.2.4.2.3. Evite absolutos

2.2.4.2.4. Quanto menos SLO's, melhor

2.2.4.2.5. A perfeição pode esperar

2.2.5. Outros usos de SLO

2.2.5.1. Fator importante na definição de prioridades

2.2.5.1.1. Para a equipe de SRE

2.2.5.1.2. Para a equipe de desenvolvimento

2.2.5.2. O SLO pode ser um forte motivador

2.2.6. Medidas de controle

2.2.6.1. 1 - Monitore e calcule os SLI's

2.2.6.2. 2 - Compare os SLI's com os SLO's e decida se uma ação é necessária ou não

2.2.6.3. 3 - Se uma ação é necessária, descubra o que deve acontecer para atender a meta

2.2.6.4. 4 - Execute a ação

2.2.6.5. Exemplo

2.2.6.5.1. O passo 2 mostra que a latência das requisições está aumentando

2.2.6.5.2. No passo 3 é feito um teste de utilização de CPU pelo processo

2.2.7. Últimos conselhos

2.2.7.1. Divulgação dos SLO

2.2.7.1.1. Define expectativas para o comportamento do sistema

2.2.7.1.2. Evita expectativas exageradas dos usuários

2.2.7.2. Margem de segurança

2.2.7.2.1. Usar internamente um SLO mais rigoroso do que o que foi anunciado para os usuários

2.2.7.3. Não exagere

2.2.7.3.1. Se o desempenho de um sistema for melhor do que o SLO divulgado, em pouco tempo os usuários irão passar a contar com o desempenho atual e não com o divulgado

2.2.7.3.2. Vale até deixar o sistema Offline de forma deliberada

3. SLA - Acordos de Nível de Serviço

3.1. Consequências por deixar de atender um SLO

3.1.1. Normalmente financeiras

3.2. Contrato

3.2.1. Implícitos ou Explícitos com os usuários

3.2.1.1. Google Search

3.2.1.2. Google Works

3.2.2. O que acontecerá se os SLO's não forem atendidos

3.3. SRE normalmente não se envolve

3.3.1. Definidos por regras de negócios e produtos

3.3.2. Equipe jurídica

3.3.3. O SRE ajuda a compreender

3.3.3.1. Probabilidades

3.3.3.2. Dificuldades para atender

3.3.4. O SRE atua para evitar o acionamento do SLA

3.4. SLA na prática

3.4.1. Cuidados com a divulgação

3.4.2. Usar as dicas para definição do SLO

4. Quiz Time

5. Introdução

5.1. Impossível administrar um serviço

5.1.1. Sem conhecer os comportamentos importantes

5.1.2. Sem conhecer os comportamentos corretos

5.1.3. Sem saber como mensurar e avaliar estes comportamentos

5.2. Escolher a métrica correta ajuda a tomar a atitude correta além de deixar a equipe confiante.

5.3. Experiência, Intuição e compreensão das necessidades do usuário para definir:

5.3.1. SLI - Service Level Indicator

5.3.1.1. Quais métricas são importantes

5.3.1.2. O que deve ser medido?

5.3.2. SLO - Service Level Objectives

5.3.2.1. Quais valores queremos para estas métricas

5.3.2.2. Quais são os objetivos?

5.3.3. SLA - Service Level Agreements

5.3.3.1. Como reagir se não alcançarmos o objetivo

5.3.4. Quem define?