Regresión Lineal
por William Porras

1. MÉTODO DE MÍNIMOS CUADRADOS.
1.1. Afortunadamente no es necesario probar con diferentes rectas cuál de ellas es la que produce la menor suma de cuadrados, ya que es posible encontrar analíticamente las expresiones para β o y β. En el caso general en que tenemos en las observaciones (Xi, Yi), β o y 1 β las soluciones del sistema de ecuaciones normales: 0 0 2 1 1 2 1 - - = ∂ ∂ - - = ∂ ∂ Σ Σ () () ioi ioi o yx yx β β β β β β y se obtiene: Σ Σ = = - - - = niini ii XX XXYY 1 2 1 1 () () () β β o = Y - β 1X (2,5) (1,5) (0,5 1,5) (0,5 1,5) (5,5) (0,5) (1,5) 5,0 10,8) ... (2,5 1,5) (16 10,8) 2 2 1 = = - + + - - - + + - - β = 10,8 5,4 1,5 2. 7 β o = y - β1x = - ⋅ = La RECTA AJUSTADA para nuestros datos es ioii Y x 2,7 5,4 x = β + β1 = + ¿Qué indican los valores de los coeficientes? ♦ β o = ORDENADA AL ORIGEN (intercepto) = 2.7 ⇒ es el punto donde la recta corta el eje vertical, es decir, la disminución esperada en el número de pulsaciones cuando la dosis es cero. No se puede interpretar si 0 no está contenido en el rango de valores de X. ♦ β 1 = PENDIENTE = 5.4 ⇒ nos dice que por cada mg de aumento en la dosis se espera un cambio de 5.4 pulsaciones / min en la FC. ♦ Si 0 β1 = y β o = Y. La media de los datos es el estimador de mínimos cuadrados cuando no hay variables regresoras. x yobs yajus (yobs-yajus) (yobs-yajus) 2 0,5 5,0 5,4 -0,4 0,16 1,0 8,0 8,1 -0,1 0,01 1,5 12,0 10,8 1,2 1,44 2,0 13,0 13. 5 -0,5 0,25 2,5 16,0 16,2 -0,2 0,04 Total = 0,0 1,90 Notación VALORES ESTIMADOS DE LOS PARÁMETROS 1 β, β o VALOR PREDICHO) (io 1 i Y = β + β x RESIDUO o RESIDUAL = resultado observado - valor predicho =) Afortunadamente no es necesario probar con diferentes rectas cuál de ellas son las que producen la menor suma de cuadrados, ya que es posible encontrar analíticamente las expresiones para β o y β. En el caso general en que tenemos en las observaciones (Xi, Yi), β o y 1 β las soluciones del sistema de ecuaciones normales: 0 0 2 1 1 2 1 - - = ∂ ∂ - - = ∂ ∂ Σ Σ () () ioi ioi o yx yx β β β β β β y se obtiene: Σ Σ = = - - - = niini ii XX XXYY 1 2 1 1 () () () β β o = Y - β 1X La recta pasa por el punto (X, (2,5 1,5) (0,5 1,5) (0,5 1,5) (5,0 10,8) ... (2,5 1,5) (0,5 1,5) (0,5 1,5) (16 10,8) 2 2 1 = = - + + - - - + + - - β = 10,8 5,4 1,5 2,7 β o = y - β1x = - ⋅ = La RECTA AJUSTADA para nuestros datos es ioii 2,7 5,4 x = β + β1 = + ¿Qué indican los valores de los coeficientes? ♦ β o = ORDENADA AL ORIGEN (intercepto) = 2.7 ⇒ es el punto donde la recta corta el eje vertical, es decir, la disminución esperada en el número de pulsaciones cuando la dosis es cero. No se puede interpretar si 0 no está contenido en el rango de valores de X. ♦ β 1 = PENDIENTE = 5.4 ⇒ nos dice que por cada mg de aumento en la dosis se espera un cambio de 5.4 pulsaciones / min en la FC. ♦ Si 0 β1 = y β o = Y. La media de los datos es el estimador de mínimos cuadrados cuando no hay variables regresoras. x yobs yajus (yobs-yajus) (yobs-yajus) 2 0,5 5,0 5,4 -0,4 0,16 1,0 8,0 8,1 -0,1 0,01 1,5 12,0 10,8 1,2 1,44 2,0 13,0 13,5 -0,5 0,25 2,5 16,0 16,2 -0,2 0,04 Total = 0,0 1,90 Notación VALORES ESTIMADOS DE LOS PARÁMETROS 1 β, β o VALOR PREDICHO) (io 1 i Y = β + β x RESIDUO o RESIDUAL = resultado observado - valor predicho =)
2. PENDIENTE ESTANDARIZADA
2.1. La pendiente 1 β nos indica si hay relación entre las dos variables, su signo nos indica si la relación es positiva o negativa, pero no mide la FUERZA de la asociación. La razón es que su valor numérico depende de las unidades de medida de las dos variables. Un cambio de las unidades en una de ellas puede producir un cambio drástico en el valor de la pendiente. Ejemplo xy recta ajustada x 'y recta ajustada 2 3 4 5 10 13 15 17 5,7 + 2,3 x 2 3 4 5 1,0 1,3 1,5 1,7 0,57 + 0,23 x Por esta razón, puede resultar interesante ver una versión estandarizada de la pendiente yxss 1 1 β * = β donde sx y sy son las desviaciones estándares de las X y las de Y respectivamente. Esta es la pendiente que se obtiene al hacer la regresión de los puntajes Z de la variable dependiente respecto de los puntajes Z de la variable regresora. INTERESANTE !!! r s s y x β 1 * = β 1 = donde está el coeficiente de correlación de Pearson. Notar que si sx = sy tenemos = = r 1 1 β * β. Esta relación directa entre el coeficiente de correlación de Pearson y el colgante de la recta de la regresión solo es válida en el contexto de la regresión simple (una variable regresora) no vale para el caso de la regresión múltiple (más de una variable regresora). Propiedades del coeficiente de correlación (de la pendiente estandarizada) - mide la fuerza de la asociación LINEAL entre X y Y. - -1 ≤ r ≤ 1 - r = 0 implica que no hay relación lineal - r = ± 1 cuando todos los puntos caen sobre la recta - tiene el mismo signo que el pendiente - mientras que el valor absoluto del alcalde de la fuerza de la asociación - el valor de r no depende de las unidades de medición - el coeficiente de correlación trata a X y Y simétricamente. Si ajustamos Y = α + βX o X = α * + β * ¡Y, en ambos casos obtendremos el mismo coeficiente de correlación, pero no la misma pendiente !!
3. EL MODELO DE REGRESIÓN LINEAL (ORDINARIO)
3.1. EL Cambio en # pulsaciones. Ratas dosis 0.5 mg. Cambio en # pulsaciones. Ratas dosis 1.0 mg. Cambio en # pulsaciones. Ratas dosis 2.5 mg. ... OBSERVACIONES (X1, Y1), ..., (XN, YN) Yi = βo + β1 xi + εi i =1, 2, ..., n con εi independientes y εi ~ N (0 , σ 2 ) Yi = disminución en la FC de la rata i xi = dosis de droga recibida por la rata i εi = término error para la rata i -4 -3 -2 -1 01 2 3 4 -4 -3 -2 -1 01 2 3 4 -4 -3 -2 -1 01 2 3 4 µ0.5 µ1.0 µ2.5 Supuestos 1. NORMALIDAD. Para cada valor de X, Y es una variable aleatoria con distribución Normal con media µx. [La distribución de la DFC para cada dosis de la droga es Normal con media µx]. 2. HOMOSCEDASTICIDAD. Todas las distribuciones poblacionales tienen la misma varianza. [La varianza de DFC es la misma para todas las dosis]. 3. LINEALIDAD. Las medias µx de las distintas poblaciones están relacionadas linealmente con X. [La media poblacional en la DFC cambia linealmente con la dosis]. µx = E(Y/ X= x ) = βo + β1 x ⇒ βo = ordenada al origen = MEDIA POBLACIONAL de la variable resultante (DFC) cuando la variable regresora (dosis) toma valor 0. ⇒ β1 = pendiente = cambio en la MEDIA POBLACIONAL de la variable resultante (DFC) cuando la variable regresora (dosis) aumenta en 1 unidad. 4. INDEPENDENCIA. Los valores de Y son estadísticamente independientes. [Este supuesto no se cumple, por ejemplo, si para algunos de los individuos tenemos observaciones repetidas]. Comentarios. - Generalmente no sabemos si los supuestos son verdaderos, ni conocemos los valores de los parámetros βo y β1. El proceso de estimar los parámetros de un modelo lineal y valorar si el modelo es adecuado para nuestros datos se denomina Análisis de Regresión. - En este modelo suponemos que la variable X NO TIENE ERROR!!! El término de error (ε) mide la variabilidad de la variable aleatoria Y para cada nivel FIJO de la variable X. - En nuestro ejemplo dosis-frecuencia cardíaca los valores de la variable explicativa fueron FIJADOS por el investigador. En el caso general, en que ambas variables se miden simultáneamente (edad materna y peso del niño al nacer, por ejemplo) suponemos que los valores de la variable regresora no tienen error. Esto difícilmente sea cierto!!!!
3.2. ESTIMACIÓN DE BASE Y β1 Los parámetros del modelo lineal se estiman a través del método de mínimos cuadrados. Llamamos a los estimadores de mínimos cuadrados de β y de β1, para obtenerlos no es necesario hacer los supuestos 1,2 y 4, sólo el de LINEALIDAD. Es un estimador insesto de β1 Es un estimador insesgado de β1 Es un método que tiene una distribución de muestreo con medios. La distribución de muestreo de una y otra vez se obtienen empíricamente repitiendo infinitas veces el experimento y calculando para cada repetición de las estimaciones y 1 de los parámetros. Con las infinitas estimaciones de β o construimos un histograma, que corresponde a la distribución del muestreo del estimador. Del mismo modo para 1 β. β o y 1 β hijo INSESGADOS aún cuando los supuestos de homoscedasticidad y normalidad sean falsos !!! IMPORTANTE !!! Hemos escrito TRES ecuaciones de REGRESIÓN para el mismo problema: Ecuación Notación Recta de Regresión Poblacional Modelo de Regresión Lineal Recta de Regresión Estimada μ x = β o + β1 XY = β + β X + ε o 1 Y = β o + β 1 X DESCONOCIDO DESCONOCIDO CONOCIDO Nuestra ecuación Y xo 1 = β + β es una estimación de la verdadera recta poblacional. RECAPITULA MÁS ⇒ Hasta aquí: 1. Planteamos el modelo de regresión lineal homoscedástico 2. Presenta los estimadores de mínimos cuadrados para el colgante y la ordenada al origen. ¿Cómo se obtiene los estimadores? → Métodos de Mínimos Cuadrados ordinarios. ⇒ En lo que sigue: 3. Estimaremos σ 2, la varianza común a las diferentes poblaciones. 4. Obtendremos el error estándar de 1 β y el de β para construir: • Pruebas de hipótesis para βo y β1. • Intervalos de confianza para βo y β1. 5. Construir la Tabla de Análisis de Varianza. ¿CÓMO ESTIMAMOS LA VARIANZA? 2 COMÚN A TODAS LAS POBLACIONES?
4. ANALISIS DE REGRESIÓN
4.1. El análisis de regresión involucra el estudio la relación entre dos variables CUANTITATIVAS. En general interesa:
4.1.1. - Investigar si existe una asociación entre las dos variables que prueba la hipótesis de independencia estadística.
4.1.2. - Estudiar la fuerza de la asociación, a través de una medida de asociación denominada coeficiente de correlación.
4.1.3. Estudiar la forma de la relación. Usando los datos propondremos un modelo para la relación y la salida de ella será posible predecir el valor de una variable a partir de la otra.
5. MODELOS
5.1. Llamaremos MODELO MATEMÁTICO a la función matemática que proponemos como forma de relación entre la variable dependiente (Y) y las variables independientes. La función más simple para la relación entre las variables es la FUNCIÓN LINEAL (Y = a + b X)
5.1.1. Esta expresión es una aproximación de la verdadera relación entre X y Y.
5.1.2. Para un dado valor de X el modelo predice un cierto valor para Y.
5.1.3. Mientras que el mar mejor la predicción, mejor es el modelo para explicar el fenómeno.