04 - Estatística e Ciência de Dados

Conceitos da estatística importantes para a ciência de dados

Get Started. It's Free
or sign up with your email address
04 - Estatística e Ciência de Dados by Mind Map: 04 - Estatística e Ciência de Dados

1. Estatística e a 4º revolução Industrial.

1.1. Qual é a matéria prima da 4º revolução industrial?

1.1.1. São os dados

1.1.2. E o que precisamos para obter informação, conhecimento e inteligência a partir dos dados?

1.1.3. Técnicas de análise de dados, como as que são fornecidas pela Estatística!

2. Principais áreas da Estatística

2.1. Probabilidade

2.1.1. Analise de situações que lidam com o acaso e com a incerteza

2.1.2. É o estudo de um número que representa as chances que determinado resultado apresenta de acontecer

2.1.3. É o estudo sobre experimentos que, mesmo realizados em condições bastante parecidas, apresentam resultados que não são possíveis de prever

2.1.4. Cara ou Coroa

2.1.4.1. A probabilidade associa números às chances de determinado resultado acontecer, de modo que, quanto maior esse número, maior a chance desse resultado ocorrer.

2.2. Estatística Descritiva

2.2.1. Coleta, organização, tratamento, analise, interpretação e apresentação de dados

2.2.2. fornece uma descrição de qualquer conjunto de dados

2.2.3. tem como função sintetizar os dados de forma direta, se importando menos com variações e intervalos de confiança dos dados

2.3. Estatística Inferencial

2.3.1. Ferramentas para realizar inferências a partir de dados amostrais

2.3.2. analisa uma seção menor do conjunto de dados e procura deduzir algo significante sobre o conjunto de dados maior

2.3.2.1. A seleção de dados menor é conhecida como amostra

2.3.2.2. o conjunto de dados maior a partir do qual a amostra é retirada é chamado população

3. A estatística é mesmo confiável?

3.1. Um pouco de História

3.1.1. Santo Agostinho, no século VI, alertou os bons cidadãos contra os matemáticos e todos aqueles que fazem profecias vazias.

3.1.2. Segundo Agostinho, o perigo é que eles tenham feito um pacto com o Diabo para obscurecer o espírito e manter o homem no cativeiro do inferno.

3.2. Atualmente

3.2.1. O brasileiro está se acostumando a assistir a infindáveis bate-bocas sobre a validade dos números que lê.

3.2.2. Até parece que atrás de uma pesquisa corre sempre uma polêmica.

3.3. É verdade que algumas pessoas pensam que as estatísticas mentem

3.3.1. Fulano está com 34% de intenções de voto.

3.3.1.1. Amostragem X Censo

3.3.1.2. A amostra tem de ser bem escolhida

3.3.1.2.1. as pessoas não estão distribuídas igualmente pelo território nacional

3.3.1.2.2. têm de se encaixar nos diferentes “tipos de pessoas” que existem no país

3.3.1.2.3. O planejamento da amostra garante a menor margem de erro na pesquisa

3.3.1.3. Margem de Erro?

3.3.1.3.1. O candidato “A” tem 34% das intenções de voto

3.3.1.3.2. o candidato “B”, 30% das intenções de voto

3.3.1.3.3. com margem de erro de 3%

3.3.2. O censo de 1980 levantou que o Brasil tinha 41.974.865 pessoas casadas

3.3.2.1. sendo 21.029.031 homens

3.3.2.2. 20.945.834 mulheres

3.3.2.3. como é que pode haver um número maior de maridos do que de esposas?

3.3.2.3.1. o IBGE entrevistou pessoas de 15 anos de idade ou mais.

3.3.2.3.2. no interior do país é comum as mulheres se casarem até com 13 anos

3.3.2.3.3. Esta mulheres ficaram fora do censo.

3.3.3. Fome atinge 32 milhões de brasileiros.

3.3.3.1. Instituto de Pesquisa Econômica Aplicada (IPEA)

3.3.3.2. O critério foi a renda abaixo de dois salários mínimos

3.3.3.2.1. não se pode medir a fome das famílias brasileiras por salários mínimos.

3.3.3.2.2. Metade da população que vive no campo.

3.3.3.2.3. não é paga em dinheiro, mas em produtos agrícolas, como mantimentos e animais.

3.3.3.2.4. não se poder concluir, com segurança, que toda família sem dinheiro no bolso seja necessariamente faminta.

3.3.4. São realizados 4 milhões de abortos por ano no Brasil.

3.3.4.1. A estimativa foi atribuída à Organização Mundial da Saúde (OMS)

3.3.4.2. Contar o número de abortos no Brasil é praticamente impossível.

3.3.4.3. aborto provocado é proibido por lei e, por isso, é feito clandestinamente, sem registro.

3.4. qualquer ciência produz resultado contrário ao desejado, quando é mal aplicada

3.4.1. as estatísticas “mentem” apenas quando estão erradas ou, no mínimo, estão sendo mal interpretadas.

3.4.2. "Os números dizem qualquer coisa quando bem torturados"

4. Principais conceitos da Estatística

4.1. População

4.1.1. é um conjunto de pessoas, itens ou eventos sobre os quais você quer fazer inferências

4.1.2. Nem sempre é conveniente ou possível examinar todos os membros de uma população

4.2. Amostra

4.2.1. Uma amostra é um subconjunto de pessoas, itens ou eventos de uma população maior que você coleta e analisa para fazer inferências

4.2.1.1. “Como garantir que a amostra representa fielmente a população?”

4.2.1.2. uma amostra deve ser coletada aleatoriamente e ser adequadamente grande.

4.2.1.3. Amostragem X Censo

4.2.2. Técnicas de Amostragem

4.2.2.1. Probabilística

4.2.2.1.1. todos os indivíduos do universo têm uma chance igual de responder a pesquisa

4.2.2.1.2. probabilidade fixa e maior que zero

4.2.2.1.3. busca a imparcialidade do entrevistador na busca de seus entrevistados

4.2.2.1.4. tem como pré-requisito uma listagem de todos os indivíduos do universo a ser pesquisado

4.2.2.1.5. Tipos de amostragem probabilística

4.2.2.2. não probabilística

4.2.2.2.1. a coleta é baseada em critérios definidos previamente

4.2.2.2.2. nem todo o universo tem a mesma chance de ser entrevistado

4.2.2.2.3. Mas o resultado será representativo e passível de extrapolação

4.2.2.2.4. Tipos de amostragem não-probabilísticas

4.2.2.3. Resumo

4.3. Parâmetro X Estatística

4.3.1. Parâmetro

4.3.1.1. é um valor numérico que afirma algo sobre toda a população em estudo

4.3.1.2. Um parâmetro descreve toda a população.

4.3.1.3. Exemplo

4.3.1.3.1. envergadura média da águia careca americana

4.3.1.4. são difíceis, senão impossíveis, de obter exatamente

4.3.2. Estatística

4.3.2.1. é um valor numérico que afirma algo sobre uma amostra

4.3.2.2. Exemplo

4.3.2.2.1. poderíamos pegar 100 águias americanas

4.3.2.2.2. medir a envergadura de cada uma delas

4.3.2.2.3. . A envergadura média das 100 águias que capturamos é uma estatística

4.3.3. Resumindo

4.3.3.1. Valores calculados usando dados da população são chamados de parâmetros

4.3.3.1.1. O valor de um parâmetro é um número fixo

4.3.3.2. Valores calculados usando dados da amostra são chamados de estatísticas

4.3.3.2.1. O valor de uma estatística pode variar de amostra para amostra

4.4. Dados Primários X Dados Secundários

4.4.1. Dados Primários

4.4.1.1. obtidos diretamente do pesquisador com o uso de seus próprios instrumentos e experiência

4.4.1.2. Dados Brutos

4.4.1.3. Alto custo

4.4.1.4. Difíceis de coletar

4.4.1.4.1. Questionários

4.4.1.4.2. Pesquisas

4.4.1.4.3. Entrevistas

4.4.1.4.4. Estudos de caso

4.4.2. Dados Secundários

4.4.2.1. informações que já foram coletadas por outra pessoa durante um processo de investigação diferente

4.4.2.2. custo menor

4.4.2.3. Mais rápidos de obter

4.4.2.3.1. Publicações de organizações governamentais e empresas privadas

4.4.2.3.2. Livros

4.4.2.3.3. Registros

4.4.2.3.4. Artigos

4.4.2.3.5. Websites

4.4.3. Diferenças

4.4.3.1. Busca de informações

4.4.3.1.1. Primários

4.4.3.1.2. Secundários

4.4.3.2. Confiabilidade nos dados

4.4.3.2.1. Primários

4.4.3.2.2. Secundários

4.4.3.3. Aplicação dos dados

4.4.3.3.1. Primários

4.4.3.3.2. Secundários

4.4.3.4. Custo da coleta de dados

4.4.3.4.1. Primários

4.4.3.4.2. Secundários

4.4.3.5. Especificidade dos dados

4.4.3.5.1. Primários

4.4.3.5.2. Secundários

4.4.3.6. Disponibilidade dos dados

4.4.3.6.1. Primários

4.4.3.6.2. Secundários

4.5. Observações X Variáveis

4.5.1. Observação

4.5.1.1. é uma ocorrência de um item de dados específico que é gravada sobre uma unidade de dados

4.5.1.2. Também chamada de:

4.5.1.2.1. Registro

4.5.1.2.2. Ocorrência do Evento

4.5.1.2.3. Instância

4.5.1.2.4. Linhas

4.5.2. Variável

4.5.2.1. é a característica de interesse que é medida em cada elemento da amostra ou população

4.5.2.2. seus valores variam de elemento para elemento

4.5.2.3. Também chamada de:

4.5.2.3.1. Atributo

4.5.2.3.2. característica

4.5.2.3.3. Coluna

4.5.2.4. Tipos de Variáveis

4.5.2.4.1. quantitativa

4.5.2.4.2. qualitativa

4.5.2.5. Resumindo

4.5.2.6. Importante

4.5.2.6.1. Um dado classificado como "idade” pode ser quantitativo.

4.5.2.6.2. Entretanto, se esse dado for informado por “faixa etária” ele é qualitativo

4.5.2.6.3. É muito importante classificar os dados de forma correta

4.5.2.6.4. permitirá a você escolher o melhor teste estatístico a ser utilizado na análise dos dados

4.6. Medidas de Posição

4.6.1. são valores que representam a tendência de concentração dos dados observados

4.6.2. As mais importantes são as medidas de tendência central

4.6.2.1. Média

4.6.2.1.1. médias são as formas mais simples de identificar tendências em um conjunto de dados

4.6.2.1.2. Tipos de Médias

4.6.2.2. Mediana

4.6.2.2.1. A mediana de um conjunto de valores é o valor que está no centro desse conjunto

4.6.2.2.2. a metade dos demais elementos do conjunto ficam abaixo da mediana

4.6.2.2.3. a outra metade dos elementos fica acima da mediana, pois são valores maiores do que ela.

4.6.2.2.4. Como calcular?

4.6.2.3. Moda

4.6.2.3.1. A moda de um conjunto de dados pode ser definida como o valor que ocorre com mais frequência dentro deste conjunto

4.6.2.3.2. baseada em frequência

4.6.2.3.3. é principalmente usada para dados categóricos

4.6.2.3.4. E quando uma sequência possui mais de uma moda?

4.6.2.3.5. Tambem podem existir sequencias amodais

4.7. Medidas de Dispersão

4.7.1. estratégias para verificar se os valores apresentados em um conjunto de dados estão dispersos ou não

4.7.1.1. e o quão distantes um do outro eles podem estar

4.7.1.2. torna a análise de uma amostra mais confiável

4.7.1.3. Do que as analises baseada somente em medidas de posição central

4.7.1.4. São elas:

4.7.1.4.1. Variância

4.7.1.4.2. Desvio Padrão

4.7.1.5. Porque usar?

4.7.1.5.1. um animador de festas infantis selecione as atividades de acordo com a média das idades das crianças convidadas para uma festa

4.7.2. Variância

4.7.2.1. mostra o quão distante cada valor desse conjunto está do valor central (médio)

4.7.2.1.1. Quanto menor é a variância, mais próximos os valores estão da média

4.7.2.1.2. quanto maior ela é, mais os valores estão distantes da média

4.7.3. Desvio Padrão

4.7.3.1. usado para medir a variabilidade entre os números em um conjunto de dados.

4.7.3.1.1. o desvio padrão é a distância média, da média

4.7.3.1.2. É a raiz quadrada da variância

5. Estatística e Ciência de Dados

5.1. São a mesma coisa?

5.1.1. Não...

5.2. Estatística serve como base para varias coisas

5.2.1. criação de perfis de passageiros em uma era de ameaças terroristas

5.2.2. eficácia de novos programas para reduzir a taxa de erros hospitalares.

5.2.3. avaliar se o sucesso de um fundo de investimentos é genuíno ou devido ao acaso

5.2.4. prever se um determinado assinante vai cancelar sua assinatura este ano

5.2.5. Prever se uma reivindicação de seguro é fraudulenta

5.3. A ciência de Dados

5.3.1. utiliza os métodos estatísticos para explorar e analisar dados

5.3.2. fazer inferências e buscar padrões em meio às incertezas

5.3.3. com o auxílio da Ciência da Computação

5.4. Resumindo

5.4.1. a Estatística desempenha um papel fundamental dentro da Ciência de Dados

5.4.2. Porém, a Ciência de Dados compreende outras áreas de conhecimento

6. Estatística - Definições

6.1. A Estatística pode ser pensada como a ciência de aprendizagem a partir de dados

6.1.1. Estatística é a ciência, parte da Matemática Aplicada, que fornece métodos para coletar, descrever, analisar, apresentar e interpretar dados, para a utilização dos mesmos na tomada de decisões.

6.1.2. A Estatística fornece técnicas e métodos de análise de dados que auxiliam o processo de tomada de decisão nos mais variados problemas onde existe incerteza.