Regresión Lineal

Get Started. It's Free
or sign up with your email address
Rocket clouds
Regresión Lineal by Mind Map: Regresión Lineal

1. ANALISIS DE REGRESIÓN

1.1. El análisis de regresión involucra el estudio la relación entre dos variables CUANTITATIVAS. En general interesa:

1.1.1. - Investigar si existe una asociación entre las dos variables que prueba la hipótesis de independencia estadística.

1.1.2. - Estudiar la fuerza de la asociación, a través de una medida de asociación denominada coeficiente de correlación.

1.1.3. Estudiar la forma de la relación. Usando los datos propondremos un modelo para la relación y la salida de ella será posible predecir el valor de una variable a partir de la otra.

2. MODELOS

2.1. Llamaremos MODELO MATEMÁTICO a la función matemática que proponemos como forma de relación entre la variable dependiente (Y) y las variables independientes. La función más simple para la relación entre las variables es la FUNCIÓN LINEAL (Y = a + b X)

2.1.1. Esta expresión es una aproximación de la verdadera relación entre X y Y.

2.1.2. Para un dado valor de X el modelo predice un cierto valor para Y.

2.1.3. Mientras que el mar mejor la predicción, mejor es el modelo para explicar el fenómeno.

2.2. UN MODELO DETERMINÍSTICO supone que bajo condiciones ideales, el comportamiento de la variable dependiente puede ser totalmente descripto por una función matemática de las variables independientes (por un conjunto de ecuaciones que relacionen las variables). Es decir, en condiciones ideales el modelo permite predecir SIN ERROR el valor de la variable dependiente. Ejemplo: Ley de la Gravedad. Podemos predecir exactamente la posición de un objeto que cae en caída libre y en el vacío para cada instante de tiempo.

2.3. Un MODELO ESTADÍSTICO permite la incorporación de un COMPONENTE ALEATORIO en la relación. En consecuencia, las predicciones obtenidas a través de los modelos estadísticos tendrán asociado un error de predicción. Ejemplo: Relación de la altura con la edad en niños: Niños de la misma edad seguramente no tendrán la misma altura. Sin embargo, a través de un modelo estadístico es posible concluir que la altura aumenta con la edad. Es más, podríamos predecir la altura de un niño de cierta edad y asociarle un ERROR DE PREDICCIÓN que tiene en cuenta: ERRORES DE MEDICIÓN y VARIABILIDAD ENTRE INDIVIDUOS. En problemas biológicos, trabajando en "condiciones ideales" es posible evitar los errores de medición, pero no la variabilidad individual, por eso es indispensable incluir el componente aleatorio en los modelos estadísticos.

3. REGRESIÓN LINEAL SIMPLE

3.1. Consideramos el siguiente experimento controlado y aleatorizado para estudiar el efecto de una nueva droga sobre la frecuencia cardiaca de ratas sanas. Cinco ratas fueron asignadas aleatoriamente a una de cinco dosis y se registró la disminución máxima observada en la frecuencia cardiaca en una hora. Los datos obtenidos hijo: Dosis (mg) Máxima disminución de la FC (DFC) 0.5 1.0 1.5 2.0 2.5 5 8 12 13 16 La relación respuesta-dosis es aparentemente lineal. Parece razonable proponedor DFC = β0 + β1 * DOSIS + error Yi = β0 + β1 * Xi + ei Podrás intentar ajustar una recta "a ojo". Propuestas: yi = 5.5 + 3.5 * xi yi = 0.5 + 7.0 * xi 0 4 8 12 16 20 0 0.5 1 1.5 2 2.5 3 Dosis (mg) Disminución latidos / min Regresión Lineal Simple Liliana Orellana, 2008 5 ¿Cuál recta es " mejor ¿Cómo decidir? Veamos los gráficos. Para decidir cuál de las dos rectas se ajusta mejor a estos datos, veremos una medida de cuán lejos está cada dato de la recta propuesta ⇒ RESIDUO. RESIDUOS RESIDUOS ⇓ ⇓ x yobs yajus (yobs-yajus) (yobs-yajus) 2 x yobs yajus (yobs-yajus) (yobs-yajus) 2 0,5 5,0 7,3 -2,3 5,1 0,5 5,0 4,0 1,0 1,00 1,0 8,0 9,0 -1,0 1,0 1,0 8,0 7,5 0,5 0,25 1,5 12,0 10,8 1,3 1,6 1,5 12,0 11,0 1,0 1,00 2,0 13,0 12,5 0,5 0,3 2,0 13,0 14,5 -1,5 2,25 2,5 16,0 14,3 1,8 3,1 2,5 16,0 18,0 -2,0 4,00 Total = 0,3 10,9 Total = -1 8,50 ⇑ ⇑ 2 Σ ( - 5.5 - 3.5) iiyx 2 Σ (- 0.5 - 7) iiyx La mejor recta que se necesita para minimizar la suma de las distancias al cuadrado de los puntos a la recta, es decir deberíamos encontrar β o y 1 β cuentos que 2 1 2 1 Σ (- -) ≤ Σ (- -) ioiioiy β β xybbx para cualquier elección de bo y b1 que hagamos. y = 5,5 + 3,5 x 0 4 8 12 16 20 0 0,5 1 1,5 2 2,5 3 Dosis (mg) Disminución latidos / min y = 0,5 + 7 x 0 4 8 12 16 20 0 0,5 1 1,5 2 2,5 3 Dosis (mg) Disminución latidos / min. Este método para encontrar la recta que mejor ajuste los datos conoce como

4. MÉTODO DE MÍNIMOS CUADRADOS.

4.1. Afortunadamente no es necesario probar con diferentes rectas cuál de ellas es la que produce la menor suma de cuadrados, ya que es posible encontrar analíticamente las expresiones para β o y β. En el caso general en que tenemos en las observaciones (Xi, Yi), β o y 1 β las soluciones del sistema de ecuaciones normales: 0 0 2 1 1 2 1 - - = ∂ ∂ - - = ∂ ∂ Σ Σ () () ioi ioi o yx yx β β β β β β y se obtiene: Σ Σ = = - - - = niini ii XX XXYY 1 2 1 1 () () () β β o = Y - β 1X (2,5) (1,5) (0,5 1,5) (0,5 1,5) (5,5) (0,5) (1,5) 5,0 10,8) ... (2,5 1,5) (16 10,8) 2 2 1 = = - + + - - - + + - - β = 10,8 5,4 1,5 2. 7 β o = y - β1x = - ⋅ = La RECTA AJUSTADA para nuestros datos es ioii Y x 2,7 5,4 x = β + β1 = + ¿Qué indican los valores de los coeficientes? ♦ β o = ORDENADA AL ORIGEN (intercepto) = 2.7 ⇒ es el punto donde la recta corta el eje vertical, es decir, la disminución esperada en el número de pulsaciones cuando la dosis es cero. No se puede interpretar si 0 no está contenido en el rango de valores de X. ♦ β 1 = PENDIENTE = 5.4 ⇒ nos dice que por cada mg de aumento en la dosis se espera un cambio de 5.4 pulsaciones / min en la FC. ♦ Si 0 β1 = y β o = Y. La media de los datos es el estimador de mínimos cuadrados cuando no hay variables regresoras. x yobs yajus (yobs-yajus) (yobs-yajus) 2 0,5 5,0 5,4 -0,4 0,16 1,0 8,0 8,1 -0,1 0,01 1,5 12,0 10,8 1,2 1,44 2,0 ​​13,0 13. 5 -0,5 0,25 2,5 16,0 16,2 -0,2 0,04 Total = 0,0 1,90 Notación VALORES ESTIMADOS DE LOS PARÁMETROS 1 β, β o VALOR PREDICHO) (io 1 i Y = β + β x RESIDUO o RESIDUAL = resultado observado - valor predicho =) Afortunadamente no es necesario probar con diferentes rectas cuál de ellas son las que producen la menor suma de cuadrados, ya que es posible encontrar analíticamente las expresiones para β o y β. En el caso general en que tenemos en las observaciones (Xi, Yi), β o y 1 β las soluciones del sistema de ecuaciones normales: 0 0 2 1 1 2 1 - - = ∂ ∂ - - = ∂ ∂ Σ Σ () () ioi ioi o yx yx β β β β β β y se obtiene: Σ Σ = = - - - = niini ii XX XXYY 1 2 1 1 () () () β β o = Y - β 1X La recta pasa por el punto (X, (2,5 1,5) (0,5 1,5) (0,5 1,5) (5,0 10,8) ... (2,5 1,5) (0,5 1,5) (0,5 1,5) (16 10,8) 2 2 1 = = - + + - - - + + - - β = 10,8 5,4 1,5 2,7 β o = y - β1x = - ⋅ = La RECTA AJUSTADA para nuestros datos es ioii 2,7 5,4 x = β + β1 = + ¿Qué indican los valores de los coeficientes? ♦ β o = ORDENADA AL ORIGEN (intercepto) = 2.7 ⇒ es el punto donde la recta corta el eje vertical, es decir, la disminución esperada en el número de pulsaciones cuando la dosis es cero. No se puede interpretar si 0 no está contenido en el rango de valores de X. ♦ β 1 = PENDIENTE = 5.4 ⇒ nos dice que por cada mg de aumento en la dosis se espera un cambio de 5.4 pulsaciones / min en la FC. ♦ Si 0 β1 = y β o = Y. La media de los datos es el estimador de mínimos cuadrados cuando no hay variables regresoras. x yobs yajus (yobs-yajus) (yobs-yajus) 2 0,5 5,0 5,4 -0,4 0,16 1,0 8,0 8,1 -0,1 0,01 1,5 12,0 10,8 1,2 1,44 2,0 ​​13,0 13,5 -0,5 0,25 2,5 16,0 16,2 -0,2 0,04 Total = 0,0 1,90 Notación VALORES ESTIMADOS DE LOS PARÁMETROS 1 β, β o VALOR PREDICHO) (io 1 i Y = β + β x RESIDUO o RESIDUAL = resultado observado - valor predicho =)

5. PENDIENTE ESTANDARIZADA

5.1. La pendiente 1 β nos indica si hay relación entre las dos variables, su signo nos indica si la relación es positiva o negativa, pero no mide la FUERZA de la asociación. La razón es que su valor numérico depende de las unidades de medida de las dos variables. Un cambio de las unidades en una de ellas puede producir un cambio drástico en el valor de la pendiente. Ejemplo xy recta ajustada x 'y recta ajustada 2 3 4 5 10 13 15 17 5,7 + 2,3 x 2 3 4 5 1,0 1,3 1,5 1,7 0,57 + 0,23 x Por esta razón, puede resultar interesante ver una versión estandarizada de la pendiente yxss 1 1 β * = β donde sx y sy son las desviaciones estándares de las X y las de Y respectivamente. Esta es la pendiente que se obtiene al hacer la regresión de los puntajes Z de la variable dependiente respecto de los puntajes Z de la variable regresora. INTERESANTE !!! r s s y x β 1 * = β 1 = donde está el coeficiente de correlación de Pearson. Notar que si sx = sy tenemos = = r 1 1 β * β. Esta relación directa entre el coeficiente de correlación de Pearson y el colgante de la recta de la regresión solo es válida en el contexto de la regresión simple (una variable regresora) no vale para el caso de la regresión múltiple (más de una variable regresora). Propiedades del coeficiente de correlación (de la pendiente estandarizada) - mide la fuerza de la asociación LINEAL entre X y Y. - -1 ≤ r ≤ 1 - r = 0 implica que no hay relación lineal - r = ± 1 cuando todos los puntos caen sobre la recta - tiene el mismo signo que el pendiente - mientras que el valor absoluto del alcalde de la fuerza de la asociación - el valor de r no depende de las unidades de medición - el coeficiente de correlación trata a X y Y simétricamente. Si ajustamos Y = α + βX o X = α * + β * ¡Y, en ambos casos obtendremos el mismo coeficiente de correlación, pero no la misma pendiente !!

6. EL MODELO DE REGRESIÓN LINEAL (ORDINARIO)

6.1. EL Cambio en # pulsaciones. Ratas dosis 0.5 mg. Cambio en # pulsaciones. Ratas dosis 1.0 mg. Cambio en # pulsaciones. Ratas dosis 2.5 mg. ... OBSERVACIONES (X1, Y1), ..., (XN, YN) Yi = βo + β1 xi + εi i =1, 2, ..., n con εi independientes y εi ~ N (0 , σ 2 ) Yi = disminución en la FC de la rata i xi = dosis de droga recibida por la rata i εi = término error para la rata i -4 -3 -2 -1 01 2 3 4 -4 -3 -2 -1 01 2 3 4 -4 -3 -2 -1 01 2 3 4 µ0.5 µ1.0 µ2.5 Supuestos 1. NORMALIDAD. Para cada valor de X, Y es una variable aleatoria con distribución Normal con media µx. [La distribución de la DFC para cada dosis de la droga es Normal con media µx]. 2. HOMOSCEDASTICIDAD. Todas las distribuciones poblacionales tienen la misma varianza. [La varianza de DFC es la misma para todas las dosis]. 3. LINEALIDAD. Las medias µx de las distintas poblaciones están relacionadas linealmente con X. [La media poblacional en la DFC cambia linealmente con la dosis]. µx = E(Y/ X= x ) = βo + β1 x ⇒ βo = ordenada al origen = MEDIA POBLACIONAL de la variable resultante (DFC) cuando la variable regresora (dosis) toma valor 0. ⇒ β1 = pendiente = cambio en la MEDIA POBLACIONAL de la variable resultante (DFC) cuando la variable regresora (dosis) aumenta en 1 unidad. 4. INDEPENDENCIA. Los valores de Y son estadísticamente independientes. [Este supuesto no se cumple, por ejemplo, si para algunos de los individuos tenemos observaciones repetidas]. Comentarios. - Generalmente no sabemos si los supuestos son verdaderos, ni conocemos los valores de los parámetros βo y β1. El proceso de estimar los parámetros de un modelo lineal y valorar si el modelo es adecuado para nuestros datos se denomina Análisis de Regresión. - En este modelo suponemos que la variable X NO TIENE ERROR!!! El término de error (ε) mide la variabilidad de la variable aleatoria Y para cada nivel FIJO de la variable X. - En nuestro ejemplo dosis-frecuencia cardíaca los valores de la variable explicativa fueron FIJADOS por el investigador. En el caso general, en que ambas variables se miden simultáneamente (edad materna y peso del niño al nacer, por ejemplo) suponemos que los valores de la variable regresora no tienen error. Esto difícilmente sea cierto!!!!

6.2. ESTIMACIÓN DE BASE Y β1 Los parámetros del modelo lineal se estiman a través del método de mínimos cuadrados. Llamamos a los estimadores de mínimos cuadrados de β y de β1, para obtenerlos no es necesario hacer los supuestos 1,2 y 4, sólo el de LINEALIDAD. Es un estimador insesto de β1 Es un estimador insesgado de β1 Es un método que tiene una distribución de muestreo con medios. La distribución de muestreo de una y otra vez se obtienen empíricamente repitiendo infinitas veces el experimento y calculando para cada repetición de las estimaciones y 1 de los parámetros. Con las infinitas estimaciones de β o construimos un histograma, que corresponde a la distribución del muestreo del estimador. Del mismo modo para 1 β. β o y 1 β hijo INSESGADOS aún cuando los supuestos de homoscedasticidad y normalidad sean falsos !!! IMPORTANTE !!! Hemos escrito TRES ecuaciones de REGRESIÓN para el mismo problema: Ecuación Notación Recta de Regresión Poblacional Modelo de Regresión Lineal Recta de Regresión Estimada μ x = β o + β1 XY = β + β X + ε o 1 Y = β o + β 1 X DESCONOCIDO DESCONOCIDO CONOCIDO Nuestra ecuación Y xo 1 = β + β es una estimación de la verdadera recta poblacional. RECAPITULA MÁS ⇒ Hasta aquí: 1. Planteamos el modelo de regresión lineal homoscedástico 2. Presenta los estimadores de mínimos cuadrados para el colgante y la ordenada al origen. ¿Cómo se obtiene los estimadores? → Métodos de Mínimos Cuadrados ordinarios. ⇒ En lo que sigue: 3. Estimaremos σ 2, la varianza común a las diferentes poblaciones. 4. Obtendremos el error estándar de 1 β y el de β para construir: • Pruebas de hipótesis para βo y β1. • Intervalos de confianza para βo y β1. 5. Construir la Tabla de Análisis de Varianza. ¿CÓMO ESTIMAMOS LA VARIANZA? 2 COMÚN A TODAS LAS POBLACIONES?