Análise de Regressão Simples

Começar. É Gratuito
ou inscrever-se com seu endereço de e-mail
Análise de Regressão Simples por Mind Map: Análise de Regressão Simples

1. Análise Discriminante

1.1. Previamente, vimos uma série de objetivos estudando a regressão linear e os mesmos continuam fazendo parte do nosso escopo em análise discriminante. A principal diferença é que aqui utilizamos uma variável de interesse qualitativa responsável por definir os grupos.

1.2. Desse modo, podemos realizar por meio da análise:

1.2.1. Predição para classificar novas observações.

1.2.2. Seleção de variáveis no contexto de escolha das principais características para diferenciar os grupos em estudo.

1.2.3. Ao passo que a estimação e inferência é realizada por intermédio da formulação do modelo.

1.3. É importante enfatizar que em análise discriminante deve-se definir as funções discriminantes, como por exemplo a combinação linear de variáveis independentes.

1.4. Além disso, precisamos falar sobre o método de Fisher:

1.4.1. Após visualizar alguns comportamentos, entendemos que ele procura a melhor definição da variável para potencializar a distância entre as duas médias e minimizar a variabilidade. O método solicita haja igualdade entre as matrizes de covariância do vetor para as populações.

1.4.2. Um dos intuitos é adquirir a função discriminante linear de Fisher, que é obtida pela combinação linear que maximiza a razão entre diferença das médias entre grupos e a respectiva variabilidade.

2. Predição

2.1. Aqui temos os valores de uma variável X dentro do intervalo de variação estudado de modo a obter valores correspondentes a outra variável Y.

3. Seleção de variáveis

3.1. Procedimentos que eliminam variáveis das quais a contribuição não seja importante e quais são as variáveis que afetam a variação de Y.

4. Estimação de parâmetros

4.1. Conseguir valores ou estimativas para os parâmetros permitindo a interpretação do fenômeno estudado na busca por um significado prático.

5. Inferência

5.1. Inferências sobre os parâmetros, como por exemplo, intervalos de confiança e testes de hipóteses.

6. *Passo a passo (análise de regressão simples):

6.1. A primeira etapa é identificar quantas e quais características (variáveis explicativas ou independentes) atuais e passadas mais explicam a característica ou evento de interesse (variável resposta ou dependente)

6.2. Depois, estimar uma equação que relaciona as características observadas.

6.3. Logo após, definir em qual modelo de regressão específicos a variável resposta consegue se adequar. Isto é, caso seja quantitativa contínua, o modelo de regressão mais indicado é o de regressão linear.

6.4. Por fim, precisamos validar se as suposições refletem normalidade para os testes de hipóteses e a obtenção e intervalos de confiança, como por exemplo, se o modelo é linear, se não tem pontos atípicos, erros independentes com distribuição normal e variância constante.

7. Análise de Regressão Múltipla

7.1. Manteremos os principais objetivos vistos anteriormente em Regressão Simples: Predição, seleção de variáveis, estimação de parâmetros e inferência.

7.2. Sequencialmente, vamos usar a análise de resíduos para verificar se as suposições cientificas estão adequadas.

7.2.1. São elas: independência, linearidade, normalidade, homocedasticidade e não existência de pontos atípicos.

7.3. Estimação de parâmetros

7.4. Inferência

7.5. Processo de seleção de variáveis

7.5.1. Precisamos buscar um subconjunto de variáveis importantes para assim conseguir explicar a variável resposta do modelo.

7.5.2. Depois, encontrar o maior número de informação por intermédio de um modelo com diversas possibilidades de variáveis independentes.

7.5.3. Reduzir a variância da estimativa e o custo da coleta com um modelo que tenha o mínimo de variáveis

7.5.4. Utilização de estratégias como especificação confirmatória, abordagem combinatória, busca sequencial por meio dos métodos stepwise (inclusão e eliminação), forward (inclusão) e backward (eliminação).

7.6. Multicolinearidade

7.6.1. Está relacionada com o nível de inter-relacionamento entre as variáveis independentes.

7.6.2. Tem como medidas a tolerância e a VIF. A primeira mostra a quantidade de variabilidade da variável independente selecionada não explicada pelas outras variáveis independentes. Já a segunda, que é o fator de inflação da variância, tem como raiz o grau em que o erro padrão aumentou conforme a multicolinearidade.

8. Análise de Componentes Principais

8.1. Conhecida como uma técnica de interdependência, explicamos de forma teórica a Análise de Componentes Principais como a alteração de maneira linear de um conjunto de p variáveis num conjunto menor de k variáveis nãocorrelacionadas.

8.1.1. Todo esse movimento consegue elucidar parte consideravelmente importante do conjunto original.

8.2. O conteúdo base nos ensina a absorver a técnica de maneira intuitiva utilizando o pensamento algébrico e também o pensamento geométrico, pois os componentes principais podem ser vistos como uma colaboração linear das variáveis originais no primeiro pensamento e como uma coordenada dos pontos amostrais num sistema de eixos adquiridos pela rotação do original no segundo pensamento.

8.3. Um conjunto de gráficos bem interessante do material mostra a transformação existente nos dados originais correlacionados, que são projetados em novos eixos, e duas componentes, onde uma delas segue a direção que representa uma maior variância.

8.4. É importante mensurar que a multicolinearidade, variáveis correlacionadas, havia sido explicada anteriormente em regressão múltipla.

8.4.1. O plus aqui é entender a utilidade da técnica numa situação dessas, na qual existe uma dimensão menor de dados para obtermos um número de combinações interpretáveis.

8.5. Na sequência, temos ciência de que o objetivo principal dessa análise é alterar uma estrutura complexa em outra representada por um grupo de variáveis quese tornam não correlacionadas e com variâncias de modo ordenado, assim conseguimos contrapor os indivíduos por meio somente de variáveis que possuem grandes variâncias.

8.6. Os componentes principais são encontrados por intermédio das teorias de autovalores e autovetores, definidos a partir de uma transformação linear.

8.6.1. Logo, tais componentes podem ser determinados com a resolução da equação característica da matriz S ou R.

9. Análise Fatorial

9.1. Origem: tem uma ligação extremamente forte com estudos da psicologia.

9.2. Utilização: podemos usar essa técnica quando estamos lidando com um número extenso de variáveis para cada observação, em escalas distintas de avaliação.

9.2.1. Temos dois principais gaps nesse momentos: o primeiro deles é a quantidade gigantesca de informação e o segundo é a interdependência latente a elas.

9.3. Isto posto, a fatorial deve expor a estrutura dedependência de um conjunto de variáveis por meio da criação do que chamamos de constructos, que são fatoresinterpretáveis, para assim medir aspectos comuns.

9.4. Consequentemente, com base na estrutura anterior podemos criar um conjunto pequeno de variáveis sem perder muitas informações dos dados originais.

9.5. Podemos usar a Análise Fatorial de algumas maneiras, como por exemplo:

9.5.1. A verificação do comportamento de itens de determinada escala que seguem uma estrutura definida previamente e para isso aplicamos a Análise Fatorial Confirmatória (AFC) para confirmar a hipótese.

9.5.2. Também conseguimos utilizar numa circunstância em que não é preciso formular hipóteses por pressuposição acerca da estrutura de dependência dos dados, logo por intermédio dos resultados da Análise Fatorial Exploratória (AFE) podemos obter essa estrutura (se a mesma existir).

9.6. Para estudar mais a fundo a análise fatorial é indicado a Modelagem de Equações Estruturais também conhecida como SEM, que é adequada para testagem de teorias que englobam diversas equações com relações de dependência.

10. Análise de Agrupamento

10.1. Agora, somos apresentados a técnicas de agrupamento de modo a formar grupos homogêneos.

10.2. Por intermédio de uma imagem utilizada como reflexão conseguimos entender que diferentes análises podem ser feitas pelos indivíduos e a partir daí surgem intuições.

10.2.1. O material base usa um figura de naipes de baralho com cores e valores distintos para instigar tal reflexão.

10.3. A pergunta-chave aqui é como iremos definir um critério para formar grupos homogêneos.

10.4. Através de um novo exemplo, percebe-se a existência de variabilidade em determinado agrupamento que estava sendo analisado por algumas variáveis.

10.4.1. Nesse momento, identificamos que uma ideia inicial pode parecer interessante mas investigando com profundidade entendemos que pode haver pouca contribuição para definição de grupos.

10.5. Assim, surge a padronização como uma alternativa para o gap mostrado anteriormente para implantar a ordem de grandeza entre as variáveis.

10.6. Também são abordadas medidas de semelhanças que podem comparar as unidades de dado estudo.

10.6.1. Medidas de similaridade: quanto maior for o valor, maior será a semelhança entre os objetos.

10.6.2. Medidas de dissimilaridade: quanto maior for o valor, mais diferentes serão os objetos.

10.7. Etapas de aplicação

10.7.1. Escolha do critério de semelhança

10.7.1.1. Escolhemos o critério para determinação do grupo por meio do banco de dados. Para isso, observamos o tipo de variável e o tipo de medida de semelhança de modo a comparar as unidades do estudo em questão.

10.7.1.1.1. Obs.: Pode ser necessário padronizar as variáveis para que tenham contribuição semelhante no estudo.

10.7.2. Formação dos grupos

10.7.2.1. Métodos hierárquicos aglomerativos: Aqui, as unidades são particionadas sucessivamente

10.7.2.1.1. Método do vizinho mais próximo

10.7.2.1.2. Método do vizinho mais distance

10.7.2.1.3. Método das médias das distâncias

10.7.2.1.4. Método da centróide

10.7.2.1.5. Método de Ward

10.7.2.2. Métodos de Partição: As unidades amostrais são particionadas formando assim grupos com alta coesão interna e isolados.

10.7.2.2.1. Método das K-médias

10.7.3. Validação do agrupamento

10.7.3.1. A taxa de variação em uma medida de similaridade ou uma medida de heterogeneidade de cada solução é a diretriz para a validação dos grupos.

10.7.3.1.1. Técnicas inferenciais são aplicadas para descobrir se as variáveis possuem comportamento dissemelhante nos grupos, como por exemplo como testes de hipóteses, análise discriminante ou correlação cofenética e gráfico da silhueta.

10.7.4. Interpretação dos grupos

10.7.4.1. Após a formação dos grupos, devemos caracterizá-los. Isso ocorre por meio de observações singulares e das unidades em cada grupo. São utilizadas estatísticas descritivas e representações gráficas para caracterizar os grupos deixando divergências e semelhanças em evidência.