1. MEDIDAS DE LA FORMA DE LA DISTRIBUCIÓN, DE LA POSICIÓN RELATIVA Y LA DETECCIÓN DE OBSERVACIONES ATÍPICAS
1.1. Forma de la distribución
1.1.1. Una medida numérica importante de la forma de una distribución es el sesgo.
1.1.1.1. Los datos sesgados a la izquierda, el sesgo es negativo; en datos sesgados a la derecha, el sesgo es positivo. Si los datos son simétricos, el sesgo es cero.
1.1.2. Las medidas de localización relativa ayudan a determinar qué tan lejos de la media se encuentra un determinado valor.
1.2. Puntos z y Teorema de Chebyshev
1.2.1. Al punto z también se le suele llamar valor estandarizado.
1.2.1.1. El punto z puede ser interpretado como el número de desviaciones estándar a las que xi se encuentra de la media x
1.2.2. El teorema de Chebyshev permite decir qué proporción de los valores que se tienen en los datos debe estar dentro de un determinado número de desviaciones estándar de la media.
1.2.2.1. Se se aplica a cualquier conjunto de datos, sin importar la forma de la distribución de los datos. En efecto se usa para cualquiera de las distribuciones.
1.3. Regla empírica
1.3.1. La regla empírica para determinar el porcentaje de los valores de los datos que deben encontrarse dentro de un determinado número de desviaciones estándar de la media.
1.4. Detección de observaciones atípicas
1.4.1. Es conveniente determinar si hay observaciones atípicas antes de tomar decisiones con base en el análisis de los datos
1.4.1.1. Conjunto de datos tiene una o más observaciones cuyos valores son mucho más grandes o mucho más pequeños que la mayoría de los datos.
2. ANÁLISIS EXPLORATORIO DE DATOS
2.1. Resumen de cinco números
2.1.1. En el resumen de cinco números se usan los cinco números siguientes para resumir los datos.
2.1.1.1. 1. El valor menor.
2.1.1.2. 2. El primer cuartil (Q1).
2.1.1.3. 3. La mediana (Q2).
2.1.1.4. 4. El tercer cuartil (Q3)
2.1.1.5. 5. El valor mayor.
2.1.2. La mejor manera es colocar los datos en orden ascendente. Hecho esto, es fácil identificar el valor menor, los tres cuartiles y el valor mayor
2.2. Diagrama de caja
2.2.1. Es un resumen gráfico de los datos con base en el resumen de cinco números
2.2.1.1. El cálculo de la mediana y de los cuartiles Q1 y Q3 También se necesita el rango intercuartílico, RIC Q3 Q1.
2.3. Permite usar operaciones aritméticas sencillas y representaciones gráficas fáciles de dibujar para resumir datos.
3. MEDIDAS DE ASOCIACIÓN ENTRE DOS VARIABLES
3.1. Covarianza
3.1.1. Covarianza como una medida descriptiva de la asociación entre dos variables.
3.1.1.1. En una muestra de tamaño n con observaciones (x1, y1), (x2, y2), etc.,
3.1.2. La covarianza es una medida de la asociación lineal entre dos variables.
3.2. Coeficiente de correlación
3.2.1. Una medida de la relación entre dos variables, a la cual no le afectan las unidades de medición empleadas para x y y, es el coeficiente de correlación.
3.2.2. Correlación del producto–momento
3.2.2.1. Se calcula dividiendo la covarianza muestral entre el producto de la desviación estándar muestral de x por la desviación estándar muestral de y.
3.2.2.1.1. El coeficiente de correlación va desde -1 hasta 1. Los valores cercanos a -1 o a 1 corresponden a una relación lineal fuerte. Entre más cercano a cero sea el valor de la correlación, más débil es la relación lineal.
3.2.2.2. La correlación proporciona una medida de la asociación lineal y no necesariamente de la causalidad
4. MEDIDAS DE LOCALIZACIÓN
4.1. Media
4.1.1. Proporciona una medida de localización central de los datos
4.1.1.1. Datos de una muestra, la media se denota x
4.1.1.2. Datos de una población, con la letra griega μ
4.1.2. Valor promedio
4.2. Mediana
4.2.1. Proporciona una medida de localización central de los datos
4.2.1.1. Valor de en medio en los datos ordenados de menor a mayor
4.3. Moda
4.3.1. Proporciona una medida de localización central de los datos
4.3.1.1. Es el valor que se presenta con mayor frecuencia.
4.4. Percentiles y Cuartiles
4.4.1. El percentil p es un valor tal que por lo menos p por ciento de las observaciones son menores o iguales que este valor y por lo menos (100 p) por ciento de las observaciones son mayores o iguales que este valor.
4.4.2. Es conveniente dividir los datos en cuatro partes; así, cada parte contiene una cuarta parte o 25% de las observaciones
5. MEDIDAS DE VARIABILIDAD
5.1. Rango y Rango intercuartílico
5.1.1. Se basa sólo en dos observaciones y, por tanto, los valores extremos tienen una gran influencia sobre él.
5.1.1.1. Rango = Valor mayor - Valor menor
5.1.2. El rango intercuartílico es el rango en que se encuentra el 50% central de los datos.
5.1.2.1. IQR = Q3 - Q1
5.2. Varianza
5.2.1. Varianza La varianza es una medida de variabilidad que utiliza todos los datos
5.2.1.1. La varianza está basada en la diferencia entre el valor de cada observación y la media.
5.3. Desviación estándar
5.3.1. La desviación estándar se define como la raíz cuadrada positiva de la varianza
5.4. Coeficiente de variación
5.4.1. Estadístico descriptivo que indique cuán grande es la desviación estándar en relación con la media. Esta medida es el coeficiente de variación y se representa como porcentaje.
6. LA MEDIA PONDERADA Y EL EMPLEO DE DATOS
6.1. Media ponderada
6.1.1. A una media calculada se le llama media ponderada
6.1.1.1. Calcula dando a cada observación un peso que refleja su importancia
6.2. Datos agrupados
6.2.1. Datos agrupados o datos en una distribución de frecuencias
6.2.2. Los estadísticos descriptivos de datos agrupados aproximan los estadísticos descriptivos que se obtendrían si se usaran los datos originales