1. Sea Y¡ el verdadero valor de Y correspondiente a un valor fijo de X¡, y sea Ŷi (Ŷi=b0 + b) el valor de Y¡, estimado ó predicho. La diferencia Y¡ - Ŷ¡ da el error que se comete cuando se desconoce el verdadero Y¡ y se dice que a X¡ le corresponde el valor Ŷi. Esta diferencia es conocida como residual y representa el error de predicción, el cual proporciona un criterio para juzgar cuánto se ajusta la línea a los puntos de los datos y debe ser el menor posible.
1.1. MMC consiste en determinar la línea que reduce a un mínimo la suma de las diferencias verticales al cuadrado entre los valores reales y predichos de la variable Y.
2. MEDIDAS DE CORRELACION LINEAL
2.1. Covarianza
2.1.1. • La covarianza de dos variables es el valor medio del producto de sus desviaciones respecto a sus medias, tomadas en pares. Sxy= Syx
2.1.1.1. Directa: Sxy > 0; Inversa: Sxy < 0; Descorreladas: Sxy = 0
2.2. Coeficiente de correlación lineal de Pearson
2.2.1. Generalmente es conveniente disponer de un índice del grado de vinculación lineal entre X y Y, que no dependa de las escalas en que se miden X y Y como sucede con la covarianza, sino que exprese intrínsecamente el grado de correlación o alineación entre ambas. (p) sirve entonces para medir la fuerza de la relación entre dos variables, el grado en que ambas están relacionadas linealmente, siendo, como ya se mencionó anteriormente las dos variables cuantitativas medidas ambas en la misma unidad de observación.
2.3. Interpretacion de p (r)
2.3.1. La interpretación de un coeficiente de correlación como medida de la intensidad de la relación lineal entre dos variables, es puramente matemática y libre de cualquier implicación de causa-efecto. El hecho de que las dos variables tiendan a crecer o decrecer juntas no indica que la una tenga un efecto directo o indirecto sobre la otra. Ambas pueden estar influidas por otras variables de modo que se origine una fuerte relación matemática.
2.3.2. La interpretación de (r) depende principalmente de los detalles de la investigación y de la experiencia propia en el tema de estudio. La experiencia previa sirve generalmente como base de comparación para determinar si un coeficiente de correlación es digno de ser mencionado.
2.4. Propiedades de p
2.4.1. • Es adimensional. • Sólo toma valores en [-1,1]. • Los valores extremos señalan que existe dependencia lineal perfecta entre ambas variables X e Y (-1 negativa perfecta y 1 positiva perfecta). •El valor 0 señala que no existe dependencia lineal alguna entre ambas variables, aunque si puede existir una dependencia funcional más compleja. Es por esto, que este coeficiente debe utilizarse con cuidado a la hora de interpretar los resultados. •El signo (+) indica que ambas variables crecen o decrecen simultáneamente y el signo (-) indica que cuando una variable crece, la otra decrece, o sea, la relación es inversa.
3. REGRECION LINEAL SIMPLE
3.1. CONCEPTO: Método o técnica estadística que nos permite buscar la ecuación matemática que mejor describe la relación que existe entre 2 variables cuantitativas medidas en la misma unidad de observación. Consiste en cuantificar la relación que existe entre esas variables con el fin de predecir cuales serán los valores de una variable cuando se conocen los valores de la otra.
3.1.1. Modelo de regresión lineal simple
3.1.1.1. En el modelo de regresión lineal simple, dado dos variables
3.1.1.1.1. Y (dependiente)
3.1.1.1.2. X (independiente, explicativa)
3.1.1.2. buscamos encontrar una función de X muy simple (lineal) que nos permita aproximar Y mediante – Ŷ = b0 + b1X
3.1.1.2.1. b0 (ordenada en el origen, constante)
3.1.1.2.2. b1 (pendiente de la recta)
3.1.1.3. Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. A la cantidad "– e = Y-Ŷ" se le denomina residuo o error residual.
3.1.2. Estimación de Bo y B por Método de los Mínimos Cuadrados (MMC)
4. CONCEPTO: La correlación y la regresión constituyen las técnicas estadisticas utilizadas para investigar este tipo de relaciones, las que si bien están relacionadas, tienen propósitos diferentes. La correlación es útil para medir la intensidad de la relación lineal entre dos variables cuantitativas; mientras que la regresión sirve para buscar la ecuación matemática que mejor describe esa relación entre las variables.
5. RESUMEN
5.1. °︎ Si esa relación existe entonces calcular la intensidad de la misma mediante el coeficiente de correlación lineal de Pearson.
5.2. ° Si existe evidencia científica en la disciplina de base de que una de las dos variables depende de la otra, entonces calcular el coeficiente de determinación para valorar el ajuste de la recta y por tanto la calidad de las predicciones futuras.
5.3. °︎ Si el ajuste de la recta es adecuado, se procede a estimar el intercepto y el coeficiente de regresión.
5.4. ° ︎Utilizar la ecuación para realizar predicciones.
5.5. ° Identificar si ambas variables tienen una relación que pudiera considerarse lineal mediante el empleo del diagrama de dispersión.
6. EVALUACION DE LA ECUACION DE REGRESION
6.1. El Coeficiente de Determinación (R2)
6.1.1. Con el valor calculado de Bo y B de la recta podemos entonces predecir el valor de Y a partir de la sustitución de los valores de X. que es en definitiva el fin ultimo que se persigue con la utilización de la regresión. Pero antes de realizar predicciones debemos estar seguros de que la ecuación a utilizar tiene un buen ajuste a los datos, es decir que la mayoría de los cambios que se producen en Y se deben a cambios en X y no a otras fuentes de variación posible, para ello utilizamos el coeficiente de determinación que no es mas que el coeficiente de correlación elevado al cuadrado.
6.2. Sugerencias para el uso de los Análisis de Regresión y Correlación.
6.2.1. 1-Tanto en la correlación como en la regresión, las variables de interés se miden sobre la misma entidad, por ejemplo si se quiere medir la relación entre hemoglobina y el hematocrito, dicha medición se realiza sobre el mismo individuo.
6.2.2. 2. No importa cuan grande es la relación encontrada entre dos variables, no se debe interpretar como una relación causal.
6.2.3. 3. No debe utilizarse la ecuación de regresión para predecir o estimar fuera del intervalo de valores de la variable independiente utilizada para estimar el coeficiente de regresión. La extrapolación tiene riesgos y proyectar los resultados más allá de ese intervalo puede llevar a conclusiones falsas.
7. DIAGRAMA DE DISPERSION O ESPARCIMIENTO
7.1. El diagrama de dispersión se construye, marcando en un par de ejes cartesianos los distintos puntos (X1,Y1); (X2,Y2);...: (Xn,Yn), resultantes de (n) observaciones de dichas variables. De esta forma podemos conocer si hay relación o no entre las variables X y Y, y si esta relación está próxima o no a la relación lineal, es decir, si se puede explicar mediante el empleo de una linea recta.
7.1.1. A) Que aparezca una tendencia clara y definida, es decir, que la correlación entre las variables resulte evidente.
7.1.2. B) Que la correlación entre las variables no aparezca tan clara; si bien los datos, aunque presentan una serie de fluctuaciones, manifiestan una tendencia definida.
7.1.3. C) Que los datos experimentales se presenten como un conglomerado de puntos, donde no puede apreciarse tendencia alguna y donde aparentemente no existe correlación.