Comienza Ya. Es Gratis
ó regístrate con tu dirección de correo electrónico
Rocket clouds
Regresión lineal por Mind Map: Regresión lineal

1. es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε.

1.1. Este modelo puede ser expresado como:

1.2. {\displaystyle Y_{t}=\beta _{0}+\beta _{1}X_{1}+\beta _{2}X_{2}+\cdots +\beta _{p}X_{p}+\varepsilon } {\displaystyle Y_{t}=\beta _{0}+\beta _{1}X_{1}+\beta _{2}X_{2}+\cdots +\beta _{p}X_{p}+\varepsilon }

1.3. donde:

1.4. {\displaystyle Y_{t}} {\displaystyle Y_{t}}: variable dependiente, explicada o regresando.

1.5. {\displaystyle X_{1},X_{2},\cdots ,X_{p}} {\displaystyle X_{1},X_{2},\cdots ,X_{p}}: variables explicativas, independientes o regresores.

1.6. {\displaystyle \beta _{0},\beta _{1},\beta _{2},\cdots ,\beta _{p}} {\displaystyle \beta _{0},\beta _{1},\beta _{2},\cdots ,\beta _{p}}: parámetros, miden la influencia que las variables explicativas tienen sobre el regrediendo.

1.7. donde {\displaystyle \beta _{0}} \beta_0 es la intersección o término "constante", las {\displaystyle \beta _{i}\ (i>0)} {\displaystyle \beta _{i}\ (i>0)} son los parámetros respectivos a cada variable independiente, y {\displaystyle p} p es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.

2. Historia

2.1. La primera forma de regresión lineal documentada fue el método de los mínimos cuadrados que fue publicada por Legendreen 1805, Gauss publicó un trabajo en donde desarrollaba de manera más profunda el método de los mínimos cuadrados, y en dónde se incluía una versión del teorema de Gauss-Márkov.

2.2. El término regresión se utilizó por primera vez en el estudio de variables antropométricas: al comparar la estatura de padres e hijos, donde resultó que los hijos cuyos padres tenían una estatura muy superior al valor medio, tendían a igualarse a éste, mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio. La constatación empírica de esta propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno.

2.3. El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean modelos basados en cualquier clase de función matemática. Los modelos lineales son una explicación simplificada de la realidad, mucho más ágiles y con un soporte teórico mucho más extenso por parte de la matemática y la estadística.

2.4. Pero bien, como se ha dicho, se puede usar el término lineal para distinguir modelos basados en cualquier clase de aplicación.

3. Modelo de regresión lineal.

3.1. El modelo lineal relaciona la variable dependiente Y con K variables explícitas (k = 1,...K), o cualquier transformación de éstas que generen un hiperplano de parámetros desconocidos:

3.1.1. (2) {\displaystyle Y=\sum \beta _{k}X_{k}+\varepsilon } {\displaystyle Y=\sum \beta _{k}X_{k}+\varepsilon }

3.2. donde es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola variable explícita, el hiperplano es una recta:

3.3. (3) {\displaystyle Y=\beta _{1}+\beta _{2}X_{2}+\varepsilon } {\displaystyle Y=\beta _{1}+\beta _{2}X_{2}+\varepsilon }

3.4. El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos , de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación i-ésima (i= 1,... I) cualquiera, se registra el comportamiento simultáneo de la variable dependiente y las variables explícitas (las perturbaciones aleatorias se suponen no observables).

3.4.1. Los valores escogidos como estimadores de los parámetros , son los coeficientes de regresión sin que se pueda garantizar que coincida n con parámetros reales del proceso generador. Por tanto, en

3.4.1.1. {\displaystyle Y_{i}=\sum \beta _{k}X_{ki}+\varepsilon _{i}} {\displaystyle Y_{i}=\sum \beta _{k}X_{ki}+\varepsilon _{i}}

3.4.2. Los valores son por su parte estimaciones o errores de la perturbación aleatoria

3.4.2.1. {\displaystyle Y_{i}=\sum \beta _{k}X_{ki}+\varepsilon _{i}} {\displaystyle Y_{i}=\sum \beta _{k}X_{ki}+\varepsilon _{i}}

4. Diagrama de dispersión

4.1. Es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos. Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal (x) y el valor de la otra variable determinado por la posición en el eje vertical (y).

4.1.1. Se emplea cuando una variable está bajo el control del experimentador. Si existe un parámetro que se incrementa o disminuye de forma sistemática por el experimentador, se le denomina parámetro de control o variable independiente y habitualmente se representa a lo largo del eje horizontal (eje de las abscisas). La variable medida o dependiente usualmente se representa a lo largo del eje vertical (eje de las ordenadas).

5. Covarianza XY

5.1. La covarianza entre dos variables, Sxy, nosindica si la posible relación entre dos variables es directa o inversa:

5.2. – Directa: Sxy > 0

5.3. – Inversa: Sxy < 0

5.4. – Descorreladas: Sxy = 0

6. Coeficiente de correlación lineal de Pearson

6.1. Es una medida de la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.

6.2. De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.

7. Tipos de modelo de regresión lineal:

7.1. Regresión lineal simple

7.1.1. Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de la forma:

7.1.2. (6) {\displaystyle Y_{i}=\beta _{0}+\beta _{1}X_{i}+\varepsilon _{i}} {\displaystyle Y_{i}=\beta _{0}+\beta _{1}X_{i}+\varepsilon _{i}}

7.1.3. donde {\displaystyle \varepsilon _{i}} {\displaystyle \varepsilon _{i}} es el error asociado a la medición del valor {\displaystyle X_{i}} X_i y siguen los supuestos de modo que {\displaystyle \varepsilon _{i}\sim N(0,\sigma ^{2})} {\displaystyle \varepsilon _{i}\sim N(0,\sigma ^{2})} (media cero, varianza constante e igual a un {\displaystyle \sigma } \sigma y {\displaystyle \varepsilon _{i}\perp \varepsilon _{j}} {\displaystyle \varepsilon _{i}\perp \varepsilon _{j}} con {\displaystyle i\neq j} {\displaystyle i\neq j}).

7.2. Regresión lineal multiple

7.2.1. La regresión lineal permite trabajar con una variable a nivel de intervalo o razón. De la misma manera, es posible analizar la relación entre dos o más variables a través de ecuaciones, lo que se denomina regresión múltiple o regresión lineal múltiple.

7.2.2. Constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionadas entre sí, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables.