1. Covarianza de dos variables aleatorias X e Y
1.1. • La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos variables es directa o inversa
1.1.1. Directa: Sxy > 0; Inversa: Sxy < 0; Descorreladas: Sxy = 0
1.2. El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables.
2. Coeficiente de correlación lineal de Pearson
2.1. nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales).
2.2. Tiene el mismo signo que Sxy . Por tanto de su signo obtenemos el que la posible relación sea directa o inversa.
2.3. r es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo de relaciones (cuadrática, logarítmica,...)
2.4. Propiedades de r
2.4.1. • Es adimensional. • Sólo toma valores en [-1,1]. • Las variables son descorreladas r = 0. • Relación lineal perfecta entre dos variables r = +1 o r = -1. – Excluimos los casos de puntos alineados horizontal o verticalmente. • Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.
3. Regresión lineal simple
3.1. El análisis de regresión sirve para predecir una medida en función de otra medida
3.1.1. Y = Variable dependiente • predicha, medida, es una variable aleatoria
3.1.2. X = Variable independiente • predictora, controlada, no es una variable aleatoria
4. Problemas con regresión
4.1. Relación no lineal. El método de mínimos cuadrados que hemos presentado busca el mejor ajuste a una línea recta. Si la relación entre las variables no es lineal, la distribución propuesta para los estimadores es falsa.
4.2. Varianza no homogénea. Si la varianza de los errores cambia con los valores de X (heteroscedasticidad) , entonces los errores estándares, los tests y los intervalos de confianza que hemos obtenido son inapropiados.
4.3. Errores correlacionados. Los errores estándares que hemos calculado, así como los tests y los intervalos de confianza suponen que los errores son independientes. Cuando este supuesto se viola las conclusiones pueden ser erróneas.
4.4. Errores no normales. Los tests e intervalos de confianza que hemos presentado, basados en la distribución t y la F, suponen que para cada valor de X la distribución de la variable Y es normal. El no cumplimiento de este supuesto invalida estos procedimientos.
4.5. Casos influyentes. Los estimadores de mínimos cuadrados son muy poco robustos. Un único datos outlier puede modificar sustancialmente la recta estimada.
4.6. Variables omitidas. Si otras variables afectan a ambas X e Y simultáneamente nuestra estimación de la pendiente puede subestimar o sobrestimar la verdadera relación entre X e Y
5. Modelo del análisis de regresión
5.1. Deterministico: supone que bajo condiciones ideales, el comportamiento de la variable dependiente puede ser totalmente descripto por una función matemática de las variables independientes . Es decir, en condiciones ideales el modelo permite predecir SIN ERROR el valor de la variable dependiente
5.2. Estadistico:permite la incorporación de un COMPONENTE ALEATORIO en la relación. En consecuencia, las predicciones obtenidas a través de modelos estadísticos tendrán asociado un error de predicción.
5.3. Estandarizada: La pendiente β1 nos indica si hay relación entre las dos variables, su signo nos indica si la relación es positiva o negativa. La razón es que su valor numérico depende de las unidades de medida de las dos variables. Un cambio de unidades en una de ellas puede producir un cambio drástico en el valor de la pendiente.
6. Modelo de regresión lineal simple
6.1. En el modelo de regresión lineal simple, dado dos variables
6.1.1. Y (dependiente)
6.1.2. X (independiente, explicativa)
6.2. buscamos encontrar una función de X muy simple (lineal) que nos permita aproximar Y mediante – Ŷ = b0 + b1X
6.2.1. b0 (ordenada en el origen, constante)
6.2.2. b1 (pendiente de la recta)
6.3. Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. A la cantidad "– e = Y-Ŷ" se le denomina residuo o error residual.
7. Supuestos de la Regresion
7.1. Normalidad. Para cada valor de X, Y es una variable aleatoria con distribución Normal con media µx.
7.2. Homoscedasticidad. Todas las distribuciones poblacionales tienen la misma varianza
7.3. Linealidad. Las medias µx de las distintas poblaciones están relacionadas linealmente con X
7.4. Independencia. Los valores de Y son estadísticamente independientes.
8. Análisis de regresión
8.1. involucra el estudio la relación entre dos variables CUANTITATIVAS. En general interesa
8.1.1. Investigar si existe una asociación entre las dos variables testeando la hipótesis de independencia estadística.
8.1.2. Estudiar la fuerza de la asociación, a través de una medida de asociación denominada coeficiente de correlación.
8.1.3. Estudiar la forma de la relación. Usando los datos propondremos un modelo para la relación y a partir de ella será posible predecir el valor de una variable a partir de la otra.