ANÁLISIS DE REGRESIÓN

Get Started. It's Free
or sign up with your email address
Rocket clouds
ANÁLISIS DE REGRESIÓN by Mind Map: ANÁLISIS DE REGRESIÓN

1. Proceso estadístico para estimar las relaciones entre variables

1.1. Incluye muchas técnicas para el modelado y análisis de diversas variables.

1.1.1. También es de interés caracterizar la variación de la variable dependiente en torno a la función de regresión, la cual puede ser descrita por una distribución de probabilidad.

2. REGRESIÓN LINEAL SIMPLE

2.1. Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar una función simple (lineal) de X que nos permita aproximar Y mediante: Ŷ = a + bX

2.1.1. a- (ordenada en el origen, constante)

2.1.2. b- (pendiente de la recta)

2.1.3. A la cantidad e=Y-Ŷ se le denomina residuo o error residual. Así, en el ejemplo de Pearson: Ŷ = 85 cm + 0,5X Donde Ŷ es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5 cm por cada cm del padre.

3. MODELOS

3.1. Función matemática que propone como forma de relación entre la variable dependiente (Y) y la o las variables independientes. La función más simple para la relación entre dos variables es la FUNCIÓN LINEAL (Y = a + b X)

3.1.1. ♦ Esta expresión es una aproximación de la verdadera relación entre X e Y.

3.1.2. ♦ Para un dado valor de X el modelo predice un cierto valor para Y.

3.2. MODELO DETERMINÍSTICO

3.3. El modelo permite predecir SIN ERROR el valor de la variable dependiente.

3.3.1. ♦ Ejemplo: Ley de la Gravedad. Podemos predecir exactamente la posición de un objeto que cae en caída libre y en el vacío para cada instante de tiempo.

3.3.1.1. MODELO ESTADÍSTICO

3.3.1.1.1. Permite la incorporación de un COMPONENTE ALEATORIO en la relación.

4. MÉTODO DE MÍNIMOS CUADRADOS.

4.1. Técnica de análisis numérico enmarcada dentro de la optimización matemática, en la que, dados un conjunto de pares ordenados: variable independiente, variable dependiente.

4.1.1. Solucon

5. PENDIENTE ESTANDARIZADA

5.1. La pendiente β1 nos indica si hay relación entre las dos variables, su signo nos indica si la relación es positiva o negativa, pero no mide la FUERZA de la asociación. La razón es que su valor numérico depende de las unidades de medida de las dos variables. Un cambio de unidades en una de ellas puede producir un cambio drástico en el valor de la pendiente.

5.2. Por esa razón, puede resultar interesante considerar una versión estandarizada de la pendiente β* =βˆ sx/sy donde sx y sy son las desviaciones estándares de las X’s y de las Y’s respectivamente. Esta es la pendiente que se obtendría al hacer la regresión de los scores Z de la variable dependiente respecto de los scores Z de la variable regresora. β* =βˆ sx/sy= R

5.3. MODELO

6. TEST DE HIPÓTESIS PARA LA PENDIENTE

6.1. Test de nivel α para las hipótesis Ho: β1 = β1* versus H1 : β1 ≠ β1* β1* : Es algún valor propuesto por el investigador. El test para Ho: β1 = 0 se conoce como test de independencia o de no asociación ya que nos dice si las variables estánasociadas o no. (El test t que hace STATA considera β1* = 0). El test se basa en el estadístico T= (β1 - β1*/SE(β1)) ~tn-2.

6.1.1. Y rechaza Ho cuando el valor del estadístico observado en la muestra da grande y positivo o grande y negativo, es decir, el p-valor da menor que el nivel α.

6.1.1.1. ESTIMACIÓN DE LA ORDENADA AL ORIGEN (βo)

6.1.1.1.1. Estimación

7. ESTIMACIÓN DE βo Y β1

7.1. Llamamos β0 y β1 a los estimadores de mínimos cuadrados de β0 y β1 , para obtenerlos no es necesario hacer los supuestos 1,2 y 4, sólo el de LINEALIDAD. ♦ β0 es un estimador insesgado de β o ♦ β1 es un estimador insesgado de β1 Esto significa que: ♦ β0 tiene una distribución de muestreo con media βoy ♦ β1 tiene una distribución de muestreo con media β1

7.2. Por esa razón, puede resultar interesante considerar una versión estandarizada de la pendiente β* =βˆ sx/sy donde sx y sy son las desviaciones estándares de las X’s y de las Y’s respectivamente. Esta es la pendiente que se obtendría al hacer la regresión de los scores Z de la variable dependiente respecto de los scores Z de la variable regresora. β* =βˆ sx/sy= R

7.3. INFERENCIA PARA LA PENDIENTE

7.3.1. Interferencia

7.3.1.1. INTERVALO DE CONFIANZA PARA β1

7.3.1.1.1. Un intervalo de confianza de nivel (1 – α) para el parámetro β1 (pendiente de la recta de regresión poblacional) está dado por: ˆβ1(+/-)tn -2,α / 2 SE(β1) donde tn−2,α / 2 t es el percentil de la distribución t de Student con n – 2 grados de libertad que deja a su derecha un área α/2.

8. ESTIMACIÓN DE LA MEDIA DE Y PARA UN DADO VALOR DE X

8.1. Supongamos que nos interesa estimar la MEDIA de la disminución de FC en la población de ratas tratadas con cierta dosis xo de la droga, por ejemplo 1.5 mg. [Esta población es hipotética, y se la obtendría usando la misma dosis en ratas en las mismas condiciones que las de nuestro experimento].

8.1.1. Nuestro estimador de µ cuando x = xo es µxo =Yxo= βo+ β1 xo Por ejemplo, para x = 1.5 mg. estimamos una reducción media de la FC ˆY1.5 = 2.7 + 5.4 + 1.5 =10.8latidos/min.

8.1.1.1. REGRESIÓN EN ESTUDIOS OBSERVACIONALES

8.1.1.1.1. A menudo el investigador no selecciona los valores de la variable independiente, sino que toma una muestra de alguna población y observa simultáneamente X e Y para cada miembro de la muestra.

9. RELACION NO LINEAL

9.1. El modelo supone que la media poblacional de Y varía linealmente con X. La forma real de la relación es desconocida, y es muy poco probable que sea exactamente lineal. Sin embargo, una función lineal a menudo resulta ser una buena aproximación para la verdadera relación.

9.1.1. En la práctica los supuestos de normalidad y homoscedasticidad nunca se cumplen exactamente. Sin embargo, mientras más cerca estén nuestros datos de los supuestos del modelo lineal, más apropiados serán los tests e intervalos deconfianza que construyamos.

9.1.1.1. OBSERVACIONES INFLUYENTES

9.1.1.1.1. Una observación se denomina influyente si al excluirla la recta de regresión estimada cambia notablemente.

10. POSIBLES CONSECUENCIAS DE LA VIOLACIÓN DE LOS SUPUESTOS:

10.1. (1) Estimación sesgada de los estimadores de los parámetros. (2) Estimación sesgada del error estándar de los coeficientes. (3) Tests e Intervalos de Confianza no válidos. (4) Los estimadores de mínimos cuadrados no son los eficientes (no son los estimadores de mínima varianza).

10.1.1. HERRAMIENTAS PARA DIAGNÓSTICO

10.1.1.1. GRÁFICOS: En primer lugar hacemos un gráfico de las dos variables para ver si el supuesto de linealidad es adecuado.

10.1.1.1.1. .

11. ¿QUÉ HACER CUANDO NUESTROS DATOS NO SATISFACEN LOS SUPUESTOS?

11.1. Si el modelo lineal no es adecuado para nuestros datos hay dos caminos posibles: 1) Abandonar el modelo de regresión lineal y usar un procedimiento más apropiado (ver tabla siguiente). 2.) Emplear alguna transformación de los datos de modo que el modelo de regresión lineal sea adecuado para nuestros datos.

11.1.1. ¿Qué hacer si encontramos observaciones outliers o influyentes?

11.1.1.1. - Examinar el caso para descartar que pertenezca a una población diferente, o que sea un error de registro. Si es así eliminar el caso y hacer nuevamente el análisis.

11.1.1.1.1. - Si el dato es “correcto”, el paso siguiente es estudiar si el modelo lineal es adecuado. Cuando hay varias variables regresoras, en ocasiones, los outliers ocurren para algunas combinaciones especiales de las variables regresoras, para las cuales el modelo puede resultar inadecuado, lo que podria sugerir la necesidad de incluir términos de interacción.

12. ¿Qué hacer si el modelo lineal no es apropiado?

12.1. La solución es TRANSFORMAR la variable dependiente o la independiente, de modo de “linealizar” la relación. Si la distribución de los residuos es razonablemente normal y la varianza de los errores aproximadamente constante, entonces es conveniente intentar transformar la covariable.

12.1.1. ¿Qué hacer si falla el supuesto de distribución normal de los errores y/o de homogeneidad de varianzas?

12.1.1.1. Estos dos problemas frecuentemente aparecen juntos. La solución en general es una transformación de la variable Y, ya que lo que necesita modificarse es la forma de la distribución de Y y su varianza. En ocasiones esta transformación puede ayudar además a “linealizar”la relación de Y con las covariables.