Análise de Dados experimentais - Schwaab

Começar. É Gratuito
ou inscrever-se com seu endereço de e-mail
Análise de Dados experimentais - Schwaab por Mind Map: Análise de Dados experimentais - Schwaab

1. Capítulo 1

1.1. 1.1 - O PROBLEMA CIENTÍFICO

1.1.1. Explique quais são os elementos fundamentais do problema científico.

1.1.1.1. Problema prático motivador

1.1.1.1.1. Questão que eu quero explorar e que desperta a curiosidade. Eu então tentarei respondê-la, explicá-la com o objetivo não só de satisfazer a curiosidade, mas de controlar ou prever um conjunto de fenômenos naturais

1.1.1.2. Modelagem

1.1.1.2.1. Busca pela compreensão das CAUSAS e CONSEQUÊNCIAS do fenômeno (as variáveis do problema) através de um MODELO.

1.1.1.3. Predição

1.1.2. Diferencie atividade empírica da teórica e sua importância para compreender um fenômenos do ponto de vista científico.

1.1.2.1. A atividade empírica consiste na observação de fenômenos e na experimentação enquanto que a atividade teórica consiste na formulação abstrata de conceitos para explicar o mundo. Um não existe sem o outro.

1.1.2.1.1. Então, quais os requisitos necessários para que um fenômeno seja compreendido?

1.2. 1.2 - Metodologia científica e Experimentação

1.2.1. Questões

1.2.1.1. Caso da Teoria do Movimento de Newton.

1.2.1.1.1. Exemplo de que um conhecimento não é uma verdade absoluta. Uma teoria é bem sucedida se for testada várias vezes e durante um grande intervalo de tempo, porém ela deve ser sempre contestada. Newton propôs leis que funcionam para sistemas sob condições gerais, mas que falham em condições extremas (mundo quantico ou de alta energia)

1.2.1.2. Quais as 3 principais naturezas do método científico?

1.2.1.2.1. Natureza cíclica

1.2.1.2.2. Limitada

1.2.1.2.3. Cíclica

1.2.1.3. Por que o trabalho científico é cíclico?

1.2.1.3.1. Porque o conhecimento vai se acumulando e um modelo gerado no passado inevitavelmente será revisto, testado e usado futuramente para testar novos e melhores modelos.

1.2.1.4. Por que é imparcial?

1.2.1.4.1. Significa que um conhecimento científico deve poder ser usado por TODOS e ser REPRODUTÍVEL, isto é, se houver as MESMAS CONDIÇÕES, devem ser obtidos os MESMOS RESULTADOS para todos os problemas.

1.2.1.5. Por que é limitada?

1.2.1.5.1. Porque todo MODELO deve ser válido dentro das CONDIÇÕES LIMITADAS. Não é possível controlar todas as variáveis que influenciam num problema, por isso, deve-se fixar as condições para que as flutuações ocorram em um nível controlado.

1.3. 1.3 As fontes de erro e o IDEAL DETERMINÍSTICO

1.3.1. Um sistema ou processo é DETERMINISTA se, estabelecendo-se a mesma PERGUNTA, as mesmas condições iniciais espera-se a mesma RESPOSTA.

1.3.1.1. Fale sobre a frase: "O homem tem procurado através dos tempos as leis que regem o funcionamento do universo."

1.3.1.1.1. O homem tenta elaborar leis que regem o universo para compreender passado, presente e futuro de forma a modelar a vida em torno de um sistema complexo de equações.

1.3.2. O "pesadelo determinista"

1.3.2.1. Livre-Arbítrio

1.3.2.2. Heterogeneidade dos indivíduos

1.3.2.2.1. Os indivíduos de determinado grupo ou população podem possuir uma complexidade de difícil mensuração. A não ser que seja possível conhecer todos os detalhes de cada um, a predição sobre eles sempre será passível de erros e incertezas.

1.3.2.3. Instrumentos com precisão finita

1.3.2.3.1. Gera flutuações (ruído)

1.3.2.4. Medições indiretas

1.3.2.4.1. Algumas variáveis devem ser relacionadas a outras medidas experimentalmente através de MODELOS DE CALIBRAÇÃO. Isso gera incertezas adicionais devido à veracidade do modelo e às condições em que ele é imposto.

1.3.2.5. Deformações nos instrumentos

1.3.2.6. Desconhecimento ou limitação do uso de variáveis

1.3.2.6.1. Na prática, para muitos problemas, usam-se apenas as variáveis principais conhecidas e desconsidera-se outros tipos de variáveis que poderiam influenciar no problema. Isso sempre gera algum grau de imprecisão, mesmo que mínimo.

1.3.3. O que é determinismo e porque essa visão tem tantas barreiras para a obtenção de resultados exatos na ciência?

1.3.3.1. É um sistema em que para as MESMAS CONDIÇÕES INICIAIS em um problema são esperados os MESMOS RESULTADOS. São exemplos, as equações matemáticas.

1.3.4. Vimos um pouco sobre os fatores que contribuem para que o resultado de um experimento seja desconhecido. Fale um pouco sobre eles.

1.3.4.1. Os problemas são vários e vão desde o livre-arbítrio, os erros de precisão de instrumentos e erros experimentais (tanto pessoais quanto do ambiente), a complexidade dos indivíduos que gera sempre incertezas nas ciências sociais, por exemplo; as medições indiretas e o próprio desconhecimento de muitas variáveis.

1.3.4.1.1. Se um sistema não é determinista, mas possui variações ou incertezas no resultado, como ele é chamado?

1.3.4.1.2. Defina condições para uma variável não ser definida como aleatória.

1.3.5. "Diz-se que sistemas que apresentam variabilidades ou incertezas quanto ao resultado final têm natureza estatística ou estocástica."

1.4. 1.4 Os conceitos de PROBABILIDADE e MÉDIA

1.4.1. Já que um conjunto de medidas sempre está sujeito a flutuações, como representar o valor real de algo? Explique como calcular cada um deles.

1.4.1.1. Moda

1.4.1.1.1. valor mais frequente

1.4.1.2. Médita aritmética

1.4.1.2.1. soma ponderada

1.4.1.3. Média geométrica

1.4.1.3.1. produto ponderado

1.4.1.4. Mediana

1.4.1.4.1. valor central

1.4.2. O que é probabilidade?

1.4.2.1. Define-se como probabilidade a EXPECTATIVA que se tem de que um certo valor (ou conjunto de valores) possa ocorrer como resultado de um experimento.

1.4.2.1.1. Para calcular uma probabilidade, o que é requisitado?

1.4.2.1.2. Qual a fórmula para esse cálculo?

1.4.2.2. Considerações

1.4.2.2.1. Expressa a fração das vezes que um resultado ocorre.

1.4.2.2.2. Se o experimento for realizado várias vezes e sob as mesmas condições.

1.4.2.3. A probabilidade de um evento ocorrer é a fração de vezes que esse evento ocorre, observando-se um dado experimento por diversas vezes. Essa probabilidade tem sempre valor de 0 a 1. A soma das probabilidades de todos os eventos deve ser 1.

1.4.3. O que é um histograma?

1.4.3.1. Se eu conheço todos os possíveis resultados

1.4.3.1.1. e conheço as suas PROBABILIDADES, ou seja, a expectativa deles ocorrerem...

1.4.3.2. Um histograma é um gráfico que mostra todos os possíveis resultados experimentais e as respectivas expectativas ou probabilidades de que de fato se realizem.

1.4.4. Média aritmética

1.4.4.1. Pra que serve a média?

1.4.4.1.1. Um valor (resultado, não probabilidade) em torno do qual as probabilidades se distribuem num histograma e

1.4.4.1.2. que CARACTERIZE o histograma para servir como base para TOMADAS DE DECISÃO e COMPARAÇÃO.

1.4.4.2. Explique isso: "a questão que surge é como escolher um número que represente a totalidade do histograma de probabilidades." e "Outra questão que pode surgir é escolher um número que identifique, de alguma maneira, um valor em torno do qual as probabilidades se distribuem." Por que essas questões são relevantes?

1.4.4.2.1. Quais condições esse número precisa ter? Explique cada uma delas e quais as conclusões que elas proporcionam?

1.4.4.2.2. "A média pode não ter um significado físico real ou ser um valor de probabilidade zero" Explique. Então porque ela é útil?

1.4.4.3. Por que a Média aritmética é uma operação conveniente para ser escolhida como forma de representar o ponto em torno do qual se distribuem as probabilidades num histograma?

1.4.4.3.1. Ela é válida para variáveis dependentes e independentes.

1.4.4.3.2. É linear, garantindo a veracidade de operações lineares.

1.4.4.3.3. Qual o inconveniente gerado pela média geométrica?

1.4.5. Eventos independentes

1.4.5.1. Quando dois experimentos são independentes?

1.4.5.1.1. Quando o resultado de um não depende do resultado do outro.

1.4.5.1.2. Exemplo: O resultado de se jogar o dado na segunda vez não depende do resultado jogado na primeira vez.

1.4.5.1.3. Para resultados assim, como eu calculo a probabilidade de ocorrer uma sequência desses dois resultados?

1.5. 1.6 Variância

1.5.1. Banda

1.5.1.1. Diferença entre o maior e menor resultados admissíveis da distribuição.

1.5.1.1.1. Qual a relação entre PROBABILIDADE ACUMUMLADA e DENSIDADE DE PROBABILIDADE? Qual a fórmula?

1.5.1.1.2. Qual fórmula para o calculo de média para o caso discreto? E para variáveis contínuas?

1.5.2. O que é VARIÂNCIA?

1.5.2.1. Média do quadrado das diferenças observadas entre os vários resultados possíveis e o valor médio desses resultados.

1.5.2.1.1. Caracteriza o quanto os resultados flutuam em torno do valor médio.

1.5.2.2. Eu tenho um valor médio

1.5.2.2.1. E possuo vários resultados possíveis

1.5.2.3. Explique: "No entanto, da mesma forma que no caso da definição da média, o usuário deve resistir à tentação de explicar em bases físicas e concretas o significado da variância". Como a variância deve ser encarada?

1.5.2.3.1. Assim como a média a variância serve para fins de CARACTERIZAÇÃO e COMPARAÇÃO do histograma e como uma medida do grau de ESPALHAMENTO do sistema.

1.5.2.4. Qual a fórmula da variância para casos discretos? E para variáveis contínuas?

2. Capítulo 2

2.1. 2.1 Distribuições de Probabilidade

2.1.1. Definição

2.1.1.1. É a ilustração de todos os possíveis resultados experimentais e as suas respectivas expectativas (probabilidades) através de um HISTOGRAMA.

2.1.1.1.1. -

2.1.2. Por que as distribuições de probabilidade usadas para descrever problemas reais não podem depender unicamente de métodos experimentais?

2.1.2.1. Devido à limitação de vezes que um experimento pode ser feito. O conceito de probabilidade está baseado na possibilidade do experimento ser realizado infinitas vezes, o que é impossível.

2.1.3. Como se tenta contornar esse problema?

2.1.3.1. Usa-se como base, CONSIDERAÇÕES IDEALIZADAS sobre o sistema, que são fundamentadas em HIPÓTESES.

2.1.3.1.1. Os chamados MODELOS PROBABILÍSTICOS.

2.1.4. O que são modelos probabilísticos?

2.1.4.1. São formas de ilustrar a real distribuição de probabilidades, fundamentadas em HIPÓTESES sobre o problema, e assim driblar as incertezas geradas pela LIMITAÇÃO DO NÚMERO DE EXPERIMENTOS.

2.1.4.1.1. Uma distribuição real teria que levar em conta um número infinito de experimentos, o que é inviável devido ao custo e tempo. Por isso se usam os modelos, que é uma boa aproximação para muitos problemas.

2.2. 2.2 Principais MODELOS

2.2.1. Distribuição BINOMIAL

2.2.1.1. Quais são as HIPÓTESES desse modelo?

2.2.1.1.1. Deve haver apenas 2 resultados possíveis

2.2.1.1.2. Os eventos devem ser independentes

2.2.1.2. O que se quer descobrir?

2.2.1.2.1. O objetivo é descobrir qual a probabilidade de obter n sucessos

2.2.2. Distribuição de Poisson

2.2.3. Distribuição Hipergeométrica

2.2.4. Distribuição RETANGULAR

2.2.5. Distribuição Exponencial

2.2.6. Distribuição Normal

2.2.6.1. Apenas a caracterização da MÉDIA e da VARIÂNCIA é suficiente para usar a curva de distribuição normal.

2.2.6.2. Muitos resultados analíticos só podem ser explicitados para esta distribuição.

2.2.6.2.1. Foi adotada como o modelo adequado de distribuição de variáveis aleatórias em um infinito número de aplicações.

2.2.6.3. As medidas se distribuem aleatoriamente e de forma simétrica em torno do valor médio.

2.2.6.4. Teorema do limite Central

2.2.6.5. Qual a sua equação?

2.2.6.5.1. Distribuição normal

2.2.6.6. O que ocorre com a curva se a variância diminuir?

2.2.6.6.1. A curva fica mais estreita em torno da média

2.2.7. Distribuição Log-Normal

3. Capítulo 3

3.1. Perguntas iniciais

3.1.1. Como eu sei que dois resultados ou propriedades obtidas de diferentes curvas de distribuição são iguais ou diferentes? E por que é importante medir isso?

3.1.1.1. Eu posso por exemplo querer medir a preferência de voto para prefeito em dois bairros diferentes da mesma cidade. Ou querer saber se um imóvel de 3 quartos vale o mesmo em dois bairros diferentes. Esses são alguns exemplos autoexplicativos.

3.1.1.1.1. Para resolver isso eu devo fazer TESTES DE HIPÓTESES.

3.1.2. Ok. E se eu não quiser comparar, mas determinar o conjunto de resultados mais provável? Exemplo: A intenção de voto de um candidato em um bairro.

3.1.2.1. Aí você está falando sobre DETERMINAR INTERVALOS DE CONFIANÇA.

3.1.3. O que significa AMOSTRA de um sistema?

3.1.3.1. É uma medida representativa do problema estocástico considerado.

3.1.4. O que significa que um resultado é NORMAL?

3.1.4.1. Um resultado é considerado Normal se ele tem grande probabilidade de ocorrer.

3.1.4.1.1. Ou se ele está contido no INTERVALO DE CONFIANÇA.

3.2. Intervalo de Confiança

3.2.1. O que significa dizer que um conjunto de resultados possui p% de confiança?

3.2.1.1. Um intervalo de p% de confiança concentra p% dos resultados admissíveis, Ou seja, há p% de certeza de que aquele grupo de valores presentes no intervalo vá ocorrer.

3.2.1.1.1. Há também (100-p)% de probabilidade daquela previsão estar errada e os resultados não serem verdadeiros.

3.2.2. Dilema

3.2.2.1. Para aumentar a confiança aumenta-se o nível de confiança exigido;

3.2.2.1.1. Processo de tomada de decisão,

3.2.2.2. Aumentando-se o nível de confiança, aumenta o intervalo (conjunto de resultados possíveis) e diminui o número de resultados pouco prováveis.

3.2.2.2.1. Processo de tomada de decisão,

3.3. Amostragem

3.3.1. Os modelos probabilísticos vêm com o intuito de driblar a limitação causada pelo NÚMERO DE EXPERIMENTOS para a construção da curva real de distribuição de probabilidades.

3.3.1.1. Mas...

3.3.1.1.1. As hipóteses feitas não são necessariamente verdadeiras

3.3.1.1.2. Eu posso escolher um modelo errado para o meu problema

3.3.2. Valor médio

3.3.2.1. Obtida a partir do histograma ou da densidade de probabilidades.

3.3.2.2. Mas e se eu NÃO CONHECER o histograma real?

3.3.2.2.1. Aplico a HIPÓTESE 1 (Experimento Bem feito)

3.3.2.2.2. Conceito de MÉDIA AMOSTRAL

3.3.2.3. Ah, pronto... Então quer dizer que além

3.3.2.3.1. do valor dos dados FLUTURAREM devido aos ERROS EXPERIMENTAIS

3.3.2.3.2. da MÉDIA REAL ser impossível de se obter

3.3.2.3.3. a própria MÉDIA AMOSTRAL também FLUTUA!!!

3.3.3. Outras propriedades

3.3.3.1. Covariância amostral

3.3.3.1.1. O que ele indica?

3.3.3.1.2. Convergem para que número se o conjunto de dados aumentar?

3.3.3.1.3. Qual a fórmula geral da covariância?

3.3.3.2. Coeficiente de correlação amostral

3.3.4. Propriedades da MÉDIA AMOSTRAL

3.3.4.1. Prop. 1

3.3.4.1.1. Se todos os experimentos de 1...N

3.3.4.1.2. Então a MÉDIA AMOSTRAL também flutua em torno da MÉDIA VERDADEIRA

3.3.4.2. Prop. 2

3.3.4.2.1. A variância da média amostral é INVERSAMENTE PROPORCIONAL ao tamanho da amostra N.

3.3.4.2.2. Variância da Média Amostral É DIFERENTE da variância amostral que É DIFERENTE da variância verdadeira

3.3.4.3. Prop. 3

3.3.4.3.1. Variância amostral = s²

3.3.4.3.2. (N-1) = GRAUS DE LIBERDADE

3.3.4.3.3. Desvio padrão amostral = raiz (s²)

3.3.4.4. Prop 4

3.3.4.4.1. O nível de flutuação da variância amostral cai continuamente, à medida que aumenta o tamanho do conjunto de dados amostrados, convergindo para zero quando N vai ao infinito.

3.3.4.4.2. Quanto maior o tamanho do conjunto amostral, maior a precisão com que se obtém o valor da variância amostral.

3.4. DISTRIBUIÇÕES E INTERVALOS DE CONFIANÇA DE GRANDEZAS AMOSTRAIS

3.4.1. Procedimento de Monte Carlo

3.4.1.1. Geram-se muitos (ND) números aleatórios

3.4.1.1.1. seguindo a dist. de probabilidades estudada

3.4.1.2. Computam-se as grandezas amostrais a partir de conjuntos contendo N desses dados

3.4.1.3. Dessa forma...

3.4.1.3.1. Muitos valores são obtidos para as GRANDEZAS AMOSTRAIS

3.4.2. Distribuição t de STUDENT

3.4.2.1. Variável t

3.4.2.1.1. Variável normalizada

3.4.2.2. Do que essa distribuição depende?

3.4.2.2.1. Do parâmetro v = GRAUS DE LIBERDADE. Representa também o TAMANHO DO CONJUNTO AMOSTRAL.

3.4.2.3. As medidas precisam estar em uma distribuição normal para se poder usar a distribuição t de Student?

3.4.2.3.1. Sim!! E além disso, cada medida deve representar o mesmo fenômeno.

3.4.3. Distribuição Chi-Quadrado (X²)

3.4.3.1. Variável X²

3.4.3.2. De quais parâmetros ela depende?

3.4.3.2.1. Apenas do tamanho do conjunto amostral (v)

3.4.3.3. Pra que ela serve?

3.4.3.3.1. Ela permite impor valores precisos onde deve estar a VARIÂNCIA VERDADEIRA

3.4.3.4. As medidas precisam estar em uma distribuição normal e as medidas devem representar o mesmo fenômeno.

3.4.4. Distribuição F de Fisher

3.4.4.1. Variável F

3.4.4.2. Usado para estabelecer comparações entre variâncias melhor que a distribuição Chi-quadrado, essa distribuição pega duas grandezas amostrais x e y, suas variâncias e variâncias amostrais para calculas a variável F.

3.4.4.2.1. Depende apenas dos parâmetros v1 e v2, que são o tamanho dos conjuntos amostrais analisados.

3.5. Comparação de grandezas amostrais

3.5.1. Usa-se para determinar se uma grandeza amostral sofre uma variação significativa durante os estudos

3.5.1.1. Por exemplo, uma média amostral a pode ser medida (com um intervalo de confiança a1<a<a2, 90% de confiança)

3.5.1.2. Depois... eu moço de novo a média amostral e calculo um valor b (com intervalo b1<b<b2, 90% confiança)

3.5.1.3. Elas são equivalentes? Ou elas são distintas?

3.5.1.3.1. Bem, se o intervalo não tiver interseção, então elas são distintas com 90% de confiança.

3.5.2. Testes para a média

3.5.2.1. Testes usados para verificar a compatibilidade da mestra amostral NOVA é compatível com dados passados e uma média passada.

3.5.2.2. Pág 173

3.5.2.2.1. Variável u

3.5.2.2.2. Variável t

3.5.2.2.3. Variável D -> Variável u e sd

3.5.3. Testes para a variância

3.5.3.1. Variável Chi quadrado, pág 175

3.5.4. Testes para a aleatoriedade

3.5.4.1. Para saber se as flutuações das medidas podem ser consideradas NORMAIS.

3.5.4.1.1. Testes com variável Chi quadrado pág 176

3.5.4.2. Para saber se as flutuações seguem uma distribuição estatística PARTICULAR

3.5.4.2.1. Usa-se ferramentas de estimação de parâmetros. (Próximos capítulos)

3.5.4.2.2. Técnica com tabela muito utilizada, página 177

3.5.5. Testes para independência de dados

3.5.5.1. Dois conjuntos de dados com ( , 2 , ) X X s N e ( , 2 , ) Y Y s N estão disponíveis. Deseja-se saber se os dados podem estar correlacionados.

3.5.5.1.1. Nesse caso, a medida de dependência é dada pela covariância ou pelo fator de correlação

3.5.6. Teste para saber se os dados são aleatórios ou não

3.5.6.1. Deseja-se saber se os dados obtidos são realmente aleatórios ou se podem estar correlacionados entre si.

3.5.7. Testes para Outliers

3.5.7.1. Quase sempre a detecção de outliers visa a eliminação desses pontos suspeitos de não fazerem parte do conjunto.

3.5.7.1.1. “A rejeição de outliers em bases puramente estatísticas é e continua a ser um procedimento perigoso. Sua existência pode ser a prova de que a população estudada não é, na realidade, o que se assumiu que fosse.”

3.5.7.2. Como fazer?

3.5.7.2.1. Calcula-se as propriedades usando o OUTLIER e não usando o OUTLIER e compara-se os resultados

3.5.7.2.2. Se for mostrado que são distintos, remove-se o outlier,

4. Capítulo 4

4.1. Classificação de modelos

4.1.1. O que é um "modelo teórico"?

4.1.1.1. Pode-se dizer que os modelos teóricos derivam de modelos conceituais que procuram interpretar o fenômeno físico estudado.

4.1.2. O que é um "modelo empírico"?

4.1.3. Qual deles tende a ser mais confiável ao se fazer extrapolações? Por quê?

4.1.4. Qual a utilidade e importância de cada um deles?

4.1.5. Qual é melhor para se fazer interpolações? Por quê?

4.1.6. Qual a diferença entre um modelo determinístico e um modelo estocástico?

4.1.7. Diferencie um modelo à parâmetros concentrados de parâmetros distribuídos.

4.1.7.1. Um modelo a parametros concentrados possui suas variáveis permanecendo iguais no espaço, ou seja, MUDANDO-SE A POSIÇÃO a propriedade se mantém constante.

4.1.7.1.1. Já no modelo à parametros distribuídos há heterogeneidade espacial.

4.2. Estimação de parâmetros

4.2.1. O que consiste "estimar parâmetros"?

4.2.1.1. Significa basicamente obter dados experimentais (atividade experimental) e

4.2.1.1.1. introduzi-los em um MODELO disponível e construído teoricamente para explicá-los (atividade teórica)

4.2.1.1.2. e fazer uma COMPARAÇÃO entre

4.2.2. Por que é importante definir uma MÉTRICA apropriada na hora de estimar parâmetros?

4.2.2.1. "A definição de uma métrica apropriada é de fundamental importância, pois é baseado nessa métrica que se desenvolve o processo de inferência paramétrica."