Regresión lineal
por Laura Becerra
1. Estudio conjunto de dos variables aleatorias
1.1. Una posible manera de obtener los datos, observando dos variables aleatorias es por medio de una tabla con las siguientes características
1.1.1. En cada fila se coloca los datos del individuo
1.1.2. Cada Columna representa los valores que toma una variable aleatoria sobre los mismos
1.1.3. Los datos no se muestran en ningún orden particular
1.2. Dichas observaciones pueden ser representadas en un diagrama de dispersión.
1.3. El estudio del objetivo es intentar reconocer a partir del mismo si hay relación entre las variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de la otra
2. Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra.
3. Diagramas de dispersión o nube
3.1. Un diagrama de dispersión representa esta conformada por puntos, el cual representa un valor particular de la variable aleatoria bidimensional (X, Y).
3.2. Diagrama entre variables
3.3. Predicción de una variable en función de otra
4. Reconocer relación directa e inversa
4.1. Poca relación: Dado un valor de X no podemos decir gran cosa sobre Y. Mala relación. Independencia.
4.2. Conocido X sabemos que Y se mueve por una horquilla estrecha. Buena relación.
4.3. Lo de “horquilla estrecha” hay que entenderlo con respecto a la dispersión que tiene la variable Y por si sola, cuando no se considera X.
5. Covarianza de dos variables aleatorias X e Y
5.1. La covarianza entre dos variables, S xy, nos indica si la posible relación entre dos variables es directa o inversa:
5.1.1. Directa: S xy>0 Inversa: S xy<0 Descorreladas: S xy=0
6. Propiedades de r
6.1. Es adimensional.
6.2. Sólo toma valores en [-1,1]
6.3. Las variables son descorreladas <-> r = 0
6.4. • Relación lineal perfecta entre dos variables <-> r = +1 o r = -1.
6.5. Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.
7. Coeficiente de correlación lineal de Pearson
7.1. El coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales).
7.2. Tiene el mismo signo que Sxy . Por tanto de su signo obtenemos el que la posible relación sea directa o inversa.
7.3. r es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo de relaciones (cuadrática, logarítmica,...)
8. Regresión lineal simple
8.1. El análisis de regresión sirve para predecir una medida en función de otra medida (o varias: regresión múltiple).
8.1.1. – Y = Variable dependiente • predicha, medida, es una variable aleatoria • explicada
8.1.2. – X = Variable independiente • predictora, controlada, no es una variable aleatoria. • explicativa
8.1.3. – ¿Es posible descubrir una relación? • Y = f(X) + error – f es una función de un tipo determinado – el error es aleatorio, pequeño, y no depende de X