#01: Statistical Methods

Começar. É Gratuito
ou inscrever-se com seu endereço de e-mail
#01: Statistical Methods por Mind Map: #01: Statistical Methods

1. Objetivo da pesquisa!

1.1. Estudo Observacional

1.1.1. Pesquisador não impõe um tratamento, apenas coleta as informações de interesse da pesquisa.

1.1.1.1. Análise Correlação e Regressão, Estatística descritiva e inferencial.

1.1.1.1.1. Exemplo de Objetivo Geral?

1.2. Estudo Experimental

1.2.1. Pesquisador modifica o ambiente com tratamentos e coleta informações para avaliar o efeito destes.

1.2.1.1. Análise de experimentos (DIC, DBC, DQL e variantes). Comparação de médias, Anova, Análise de Regressão e etc.

1.2.1.1.1. Exemplo de Objetivo Geral?

2. Organização e Processamento

2.1. Overview of Models

2.1.1. General Linear Models (Umbrella term for several different analysis)

2.1.1.1. When the response variable is continuous and you can assume a normal distribution of errors, you can use a general linear model to model the relationship between predictor variables and the response variable.

2.1.1.1.1. ANOVA. When will you use analysis of variance? To analyze how Y can affected by changing the level of predictors (X's).

2.1.1.1.2. Regression Analysis. When you use it?

2.1.2. Logistic Regression. When use it? If you have a categorical response variable (Y) that's binary (0 or 1).

2.1.2.1. Logistic regression

2.2. How to transform sample data into statistical models?

2.2.1. How to predict the height of a tree using information about their DBH and AGE.

2.2.1.1. We expected that larger DBH and great Age are correlated to taller tree! A positive relationship.

2.2.1.2. You can use a statistical model to confirm your hypothesis.

2.2.1.3. And predict a tree height given the other two variables.

2.2.2. How to estimate the relationship between seedling growth and types of fertilizer.

2.3. Explanatory vs. Predictive modeling

2.3.1. In explanatory models, or inferential statistics, you make conclusions or inferences about a population from the analysis of a random sample drawn from that population. The goal is to develop a model that answers the question, "How is X related to Y?" That is, how does the outcome change as I change the predictor value?

2.3.2. Predictive modeling, predicts future values of a response variable based on the existing values of predictor variables.

2.4. Statistical softwares

2.4.1. Statistical Analysis System (SAS)

2.4.2. R Software

2.4.3. SQL (Structured Query Language)

2.4.4. Python

3. Results

3.1. Understanding the results

3.1.1. Statistical basic concepts

3.1.1.1. Standard Error of the Mean=variability associated with the sample mean, x̄, is measured by the standard error.

3.1.1.1.1. If a different sample was collected, the sample statistics would change. This resultas in different SE due the sample size (n).

3.1.1.2. Confidence Intervals=

3.1.1.2.1. If you were to draw infinitely many samples and estimate your confidence interval exactly the same way each time, your confidence interval would represent the percentage of those intervals that would contain the true population mean.

3.1.1.2.2. Take into account the variability of the sample statistic (e.g. Sx̄)

3.1.1.2.3. To calculate the intervals its necessary to choose the Confidence Level (90%; 95%; 99%). Higher confidence levels are associated with larger t values, which, in turn, result in wider intervals.

3.2. Communicate the results

3.2.1. Tables

3.2.2. Types of graphs

3.2.2.1. Pie Chart

3.2.2.2. Bar Chart. Gap between bar and consider categorical X-axis.

3.2.2.3. Histogram Non gaps between bar and consider a numerical ranges variable in X-axis.

3.2.2.4. Scatter plot

3.2.2.5. Box-plot plot

3.2.3. Dashboards

4. Tipo de dados/Níveis de medição

4.1. Refere-se a quantidade de informação contida em uma variável e determina quais processos estatísticos, gráficos e análises são apropriados!

4.1.1. Y=variável dependente foco da pesquisa que será submetida a análise.

4.1.1.1. X's=variável independente. São variáveis mensuradas ou calculadas utilizadas para explicar Y e, portanto, utilizada para predizer Y.

4.1.2. Ambos Y e X's podem ser classificada como Categórica, Ordinal ou Contínua.

4.1.2.1. Variável Categórica representa valores não numéricos

4.1.2.2. Variável Ordinal é similar à Categórica mas os nível de medição obedecem uma hierarquia de ordem.

4.1.2.3. Variável Contínua

4.2. Nominal

4.2.1. Utilizado principalmente para identificação e classificação. Neste caso não se calcula operações aritméticas, medias e etc.! Neste caso é possível determinar a Moda.

4.2.1.1. Nominal Qualitativo ou Quantitativo. Valores armazenado na base de dados como texto ou números (Número = variável Dummy). Neste caso, o uso dos número é apenas para propósito de identificação e não implica em ordem.

4.2.1.1.1. Nomenclatura da espécie; Classe de drenagem do solo (Rápido, Moderado, Lento, Muito lento, Alagado); Número da árvore.

4.3. Ordinal

4.3.1. Neste caso, a ordem ou rank da variável é válido. Portanto, essa escala tem uma propriedade de magnitude nos valores registrados da escala. Neste caso, também não se calcula operações aritméticas, medias.

4.3.1.1. Ordinal Qualitativo ou Quantitativo. Calcula-se Correlação de Postos de Spearman e Percentis.

4.3.1.1.1. Ex.: Nível de infestação de insetos (Baixo, Médio, Alto); Classe de copa (Dominante, Codominante, Dominada, Suprimida); Qualidade do Fuste (1; 2; 3); Números para expressar carga de lianas na copa (1=Alto; 2=Médio; 3=Baixo)

4.4. Intervalar/Razão (Absolute Zero Value!)

4.4.1. Apresenta maior precisão entre as escalas de medição pois são observações medidas ao invés de classificadas ou ordenadas! Sempre é Quantitativo! Correlação de Pearson, Media, Teste t e F e etc.

4.4.1.1. Dados Discreto. Número inteiros que representam contagem por exemplo.

4.4.1.1.1. Ex.: Número de árvores vizinhas

4.4.1.2. Dados Contínuos. Números fracionários que representam medições.

4.4.1.2.1. Ex.: Valores de DAP e Altura Total. Para esses dados é muito comum cálculo de Média, Medidas de Dispersão e etc.

4.4.2. Intervalar considera que o valor Zero não indica a ausência de uma medição!

4.4.3. Razão considera valores de Zero como ausência de medição (dap, altura, # de vizinhos e custos são exemplos dessa escala)

5. População

5.1. Is all the data you are interested in collecting (e.g. All trees of Brazil nut that is relevant to a study or total population that votes in a determined state or county)

5.2. Can be either larger or small, as long it covers all of you data. A population is not necessarily entire population of a city or country;

5.3. An entire population is rarely studied, because it may be unnecessary and in feasible to do so!!!

5.4. Censo na polulação

5.4.1. Valores de resultados são parâmetros! Neste caso, não há calculo de média, desvios e etc!

6. Sampling the population

6.1. Samples can be drawn in various ways from the population!

6.1.1. Probability sampling

6.1.1.1. Each member of the population has an equal chance, or probability, of being selected in the sample.

6.1.1.1.1. In SAS System the PROC SURVEYSELECT do the job!

6.1.1.2. The results can be generalized for the entire population!

6.1.1.3. Probability sampling strategy in forest study

6.1.1.3.1. Sampling procedure

6.1.1.3.2. Sampling methods

6.1.2. Non-probability sampling

6.1.2.1. Each member of the population does not have equal chance of being selected in the sample.

6.1.2.2. Is not possible to generalize the results for the population!!!

6.1.2.2.1. Therefore, is not allow to calculate confidence intervals and margins of error!!

6.1.2.3. Some non-probability sampling methods

6.1.2.3.1. Amostragem por Conveniência (Convenience sampling)

6.1.2.3.2. Amostragem Intencional (Purposive sampling)

6.1.2.3.3. Amostragem por Cotas (Quota sampling)

6.1.2.3.4. Amostragem por Bola de Neve (Snowball sampling)