1. DEFINICION
1.1. Es un método matemático que modeliza la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Regresión lineal
2. HISTORIA
2.1. La primera forma de regresión lineal documentada fue el método de los mínimos cuadrados que fue publicada por Legendre en 1805, Gauss publicó un trabajo en donde desarrollaba de manera más profunda el método de los mínimos cuadrados,1 y en dónde se incluía una versión del teorema de Gauss-Márkov. El término regresión se utilizó por primera vez en el estudio de variables antropométricas: al comparar la estatura de padres e hijos, donde resultó que los hijos cuyos padres tenían una estatura muy superior al valor medio, tendían a igualarse a éste, mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio.2 La constatación empírica de esta propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno. El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean modelos basados en cualquier clase de función matemática.
3. TIPOS
3.1. LA REGRESION LINEAL SIMPLE examina la relación lineal entre dos variables continuas: una respuesta (Y) y un predictor (X). Cuando las dos variables están relacionadas, es posible predecir un valor de respuesta a partir de un valor predictor con una exactitud mayor que la asociada únicamente a las probabilidades. La regresión proporciona la línea que "mejor" se ajusta a los datos. Esta línea se puede utilizar después para: Examinar cómo cambia la variable de respuesta a medida que cambia la variable predictora. Predecir el valor de una variable de respuesta (Y) para cualquier variable predictora (X).
3.1.1. LA REGRESION LINEAL MULTIPLE examina las relaciones lineales entre una respuesta continua y dos o más predictores. Si el número de predictores es grande, antes de ajustar un modelo de regresión con todos los predictores, se deberían utilizar las técnicas de selección de modelo paso a paso o de los mejores subconjuntos para excluir los predictores que no estén asociados con las respuestas.
3.1.1.1. LAS RECTAS DE REGRESION son las rectas que mejor se ajustan a la nube de puntos (o también llamado diagrama de dispersión) generada por una distribución binomial. Matemáticamente, son posibles dos rectas de máximo ajuste
4. SUPUESTOS DE UN MODELO DE REGRESION LINEAL
4.1. Para poder crear un modelo de regresión lineal es necesario que se cumpla con los siguientes supuestos:3 *Que la relación entre las variables sea lineal. *Que los errores en la medición de las variables explicativas sean independientes entre sí. *Que los errores tengan varianza constante. (Homocedasticidad) *Que los errores tengan una esperanza matemática igual a cero (los errores de una misma magnitud y distinto signo son equiprobables). *Que el error total sea la suma de todos los errores.
5. DIAGRAMA DE DISPERSION
5.1. Un diagrama de dispersión o gráfica de dispersión o gráfico de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos. Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal (x) y el valor de la otra variable determinado por la posición en el eje vertical (y). Por tanto en las distribuciones bidimensionales a cada individuo le corresponden los valores de dos variables, las representamos por el par (xi, yi). Asi que al representar cada par de valores como las coordenadas de un punto, el conjunto de todos ellos se llama nube de puntos o diagrama de dispersión.
6. COEFICIENTE CORRELACION LINEAL DE PEARSON
6.1. El coeficiente de correlación lineal de Pearson (r) permite medir el grado de asociación entre dos variables y el sentido de su relación (positivo o negativo). Las variables tienen que ser cuantitativas y medidas en escala de intervalo. Sus valores oscilan desde -1 hasta 1. La hipótesis nula señala que r = 0 en la población (p = 0)y la hipótesis alternativa que r ≠ 0 (p ≠ 0). El coeficiente de correlación es un índice de tamaño del efecto pues indica la magnitud de la relación encontrada entre dos variables
7. APLICACIONES PRACTICAS
7.1. LINEAS DE TENDENCIA: Una línea de tendencia representa una tendencia en una serie de datos obtenidos a través de un largo período. Este tipo de líneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PIB, el precio del petróleo o el valor de las acciones) han aumentado o decrementado en un determinado período.8 Se puede dibujar una línea de tendencia a simple vista fácilmente a partir de un grupo de puntos, pero su posición y pendiente se calcula de manera más precisa utilizando técnicas estadísticas como las regresiones lineales. Las líneas de tendencia son generalmente líneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la línea.
7.1.1. MEDICINA: En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco9 vinieron de estudios que utilizaban la regresión lineal. Los investigadores incluyen una gran cantidad de variables en su análisis de regresión en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias. En el caso del tabaquismo, los investigadores incluyeron el estado socio-económico para asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su educación o posición económica. No obstante, es imposible incluir todas las variables posibles en un estudio de regresión.1011 En el ejemplo del tabaquismo, un hipotético gen podría aumentar la mortalidad y aumentar la propensión a adquirir enfermedades relacionadas con el consumo de tabaco. Por esta razón, en la actualidad las pruebas controladas aleatorias son consideradas mucho más confiables que los análisis de regresión.
7.1.1.1. INFORMATICA: Ejemplo de una rutina que utiliza una recta de regresión lineal para proyectar un valor futuro: Código escrito en PHP