Comienza Ya. Es Gratis
ó regístrate con tu dirección de correo electrónico
Estadística por Mind Map: Estadística

1. Frecuencia

1.1. Es el número de veces que aparece un valor en un conjunto de datos. Es decir, la frecuencia es la cantidad de veces que se repite un valor en una muestra estadística.

1.1.1. Generalmente, en estadística se utiliza la letra f con el subíndice i para representar la frecuencia del valor i, de modo que el símbolo de la frecuencia es fi.

1.1.1.1. Formula

2. Tipos de frecuencias

2.1. En estadística, los diferentes tipos de frecuencias son los siguientes:

2.1.1. Frecuencia absoluta

2.1.1.1. Consiste en el número de veces que aparece un valor en una muestra estadística.

2.1.2. Frecuencia absoluta acumulada

2.1.2.1. Se calcula sumando la frecuencia absoluta del valor más las frecuencias absolutas de todos los valores menores.

2.1.3. Frecuencia relativa

2.1.3.1. Es la frecuencia absoluta partido por el número total de datos.

2.1.4. Frecuencia relativa acumulada

2.1.4.1. Es igual a la suma de la frecuencia relativa del valor más las frecuencias relativas de todos los valores menores.

3. Variables

3.1. Una variable refiere, en una primer instancia, a cosas que son susceptibles de ser modificadas (de variar), de cambiar en función de algún motivo determinado o indeterminado. Según cómo se midan, las variables podrán ser cualitativas o cuantitativas.

3.1.1. Cualitativas: aquellas que expresen características o cualidades diferentes. Las variaciones cualitativas podrán ser clasificadas en:

3.1.1.1. Ordinales: Aquí la variable tomará valores ordenados respecto de la escala previamente establecida.

3.1.1.2. Nominal: los valores de cada variable no pueden estar sujetos a un orden determinado.

3.1.2. Cuantitativas: cuando expresen argumentos numéricos. Las variaciones cuantitativas se clasificarán en:

3.1.2.1. Discretas. La variable presentará cortes en la escala de valores que se ha seleccionado.

3.1.2.2. Continuas. La variable podrá adquirir cualquier valor mientras se encuentre dentro de un intervalo de valores determinado.

4. Medidas de tendencia central

4.1. Las medidas de tendencia central son parámetros estadísticos que informan sobre el centro de la distribución de la muestra o población estadística. A continuación, veamos las principales medidas de tendencia central, así como las distintas fórmulas que permiten calcular dichas medidas en cualquier caso. Estas medidas son la media, la moda y la mediana.

4.1.1. Media

4.1.1.1. La media es el valor promedio de un conjunto de datos numéricos, calculada como la suma del conjunto de valores dividida entre el número total de valores. A continuación se muestra la fórmula de la media aritmética:

4.1.1.1.1. Ejemplo de media: Imaginemos que hemos obtenido 4 calificaciones distintas en 4 exámenes, siendo nuestra nota final la calificación media obtenida. Imaginemos que estas calificaciones han sido 7, 6, 8 y 5. Para saber la nota media, sumaremos las calificaciones y dividiremos el resultado por el número de valores que tenemos. (7+6+8+5) / 4 = 6,5. Un proceso que culminaría con una calificación media de 6,5.

4.1.2. Mediana

4.1.2.1. La mediana es un estadístico de posición central que parte la distribución en dos, es decir, deja la misma cantidad de valores a un lado que a otro. Las fórmulas propuestas no nos darán el valor de la mediana, lo que nos darán será la posición en la que está dentro del conjunto de datos. Las fórmulas que indica la posición de la mediana en la serie son las siguientes:

4.1.2.1.1. Cuando el número de observaciones es par: Mediana = (n+1) / 2 → Media de las posiciones observaciones

4.1.2.1.2. Cuando el número de observaciones es impar: Mediana = (n+1) / 2 → Valor de la observación

4.1.2.2. Ejemplo de mediana: Imaginemos que hemos lanzado un dato 10 veces y hemos obtenido los siguientes resultados (ordenados de menor a mayor): 1, 2, 2, 3, 4, 5, 5, 5, 6, 6. Realizando el cálculo, aplicando la fórmula, obtenemos lo siguiente: Mediana = 10 + 1 / 2 = 5,5. A continuación, calculamos la media de los valores que ocupan la posición 5 y 6, es decir, 4 y 5: 5 + 4 / 2= 4,5. En este caso, la mediana sería 4,5.

4.1.3. Moda

4.1.3.1. La moda es el valor que más se repite en una muestra estadística o población. No tiene fórmula en sí mismo. Lo que habría que realizar es la suma de las repeticiones de cada valor.

4.1.3.1.1. Ejemplo de moda: Imaginemos que hemos lanzado un dado entre un grupo de 8 amigos, y queremos saber la moda. Los resultados en los lanzamientos han sido (ordenados de menor a mayor): 2, 3, 3, 3, 3, 4, 5, 5. Así, dado que la moda no tiene fórmula, sino que es el valor observado que más se repite, la moda en la siguiente distribución es 3. Pues 3 es el valor observado que más veces se repite (x4).

5. Gráficos

5.1. Un gráfico estadístico es una representación visual de una serie de datos estadísticos. A continuación se muestra una lista de varios tipos de gráficos que se pueden utilizar en análisis exploratorio de datos (EDA). Haga clic en cada uno de ellos para ver un ejemplo de ese tipo de gráfico, el número de variables que utiliza y una descripción de su finalidad.

5.1.1. Histogramas

5.1.1.1. Los histogramas muestran la forma de sus datos. El eje horizontal muestra sus valores de datos, con cada barra correspondiendo a un rango de valores. El eje vertical muestra cuántos puntos de datos tienen valores en el rango de cada barra. En el histograma de la figura 1, las barras muestran el conteo de cada rango.

5.1.1.1.1. Por ejemplo, la primera barra corresponde al conteo de valores que están entre 30 y 35. El histograma revela que el centro de los datos cae cerca del 45 y que la extensión de los mismos va de unos 30 a 65. También revela que la forma de los datos es aproximadamente en colina. Esta forma es una pista visual de que probablemente los datos tengan una distribución normal.

5.1.1.2. Histogramas colocados en paralelo Número de variables: 2 Muestra las formas o las distribuciones de grupos de datos; puede ayudar a identificar valores atípicos.

5.1.2. Diagrama de barras

5.1.2.1. Los diagramas de barras reflejan los conteos de frecuencia de valores de los distintos niveles de una variable categórica o nominal. A veces se usan diagramas de barras para representar otras estadísticas, como porcentajes.

5.1.2.1.1. La figura 1 es un ejemplo de diagrama de barras con las respuestas a la pregunta de una encuesta. Las barras representan los niveles de la variable; la altura de las mismas indica el conteo de respuestas de cada nivel.

5.1.3. Diagramas de barras con datos agrupados

5.1.3.1. Número de variables: 2 o más, según cuántas variables se usen para definir los grupos. Muestra diagramas de barras para grupos definidos por otra variable. Los diagramas de barras agrupadas tienen un gráfico separado para cada nivel de la variable de agrupación.

5.1.3.1.1. .

5.1.4. Diagramas de barras apiladas

5.1.4.1. Número de variables: 2 o más, según cuántas variables se usen para definir los grupos. Muestra diagramas de barras para grupos definidos por otra variable. Los diagramas de barras apiladas tienen una barra por cada nivel de la variable de agrupación. Los colores o patrones para conteos de otra variable están apilados en cada barra.

5.1.5. Diagramas de Pareto

5.1.5.1. Número de variables: 1. Muestra conteos de frecuencia ordenados para una variable. Útil para resaltar el "puñado esencial". El diagrama de Pareto, es un tipo de diagrama de barras que suele incluir una curva de porcentaje acumulado.

5.1.6. Diagramas de barras empaquetadas

5.1.6.1. Número de variables: 1. Muestra conteos de frecuencia ordenados para una variable. Se usa en lugar del diagrama de Pareto, en especial si hay muchas categorías. Útil para resaltar el "puñado esencial".

5.1.7. Gráficos en mosaico

5.1.7.1. Número de variables: 2 o más. Muestra la posible relación entre variables categóricas. Útiles para localizar errores de datos, como categorías mal escritas. Un tipo especial de gráfico de barras apilado que muestra más de una variable en el eje X.

5.1.8. Diagramas en árbol

5.1.8.1. Es una representación gráfica de los posibles resultados del experimento, el cual consta de una serie de pasos, donde cada uno de estos tiene un número infinito de maneras de ser llevado a cabo. Se utiliza en los problemas de conteo y probabilidad.

5.1.9. Diagramas de caja

5.1.9.1. Los diagramas de caja le permiten visualizar y comparar la distribución y la tendencia central de valores numéricos mediante sus cuartiles.

5.1.10. Diagramas de caja colocados en paralelo

5.1.10.1. Número de variables: 2 o más, según cuántas variables se usen para definir los grupos. Muestra diagramas de caja para grupos definidos por otra variable. Se usan para localizar errores de datos y explorar dos o más variables.

5.1.11. Gráficos de cuantiles normales

5.1.11.1. Determina si la hipótesis de que una variable tiene una distribución normal es razonable.

5.1.11.1.1. Número de variables: 1.

5.1.12. Gráficos de líneas

5.1.12.1. Muestra cambios a lo largo del tiempo. El eje X debe contener valores ordenados por tiempo. Los gráficos lineales, también llamados diagramas de líneas o gráficos de ejecución, son útiles para localizar valores atípicos.

5.1.12.1.1. Número de variables: 2

5.1.13. Gráficos de líneas con categorías

5.1.13.1. Muestra varios diagramas de barras para grupos definidos por otra variable. Se usan para entender los cambios a lo largo del tiempo para múltiples variables y para hallar valores atípicos.

5.1.13.1.1. Número de variables: 2 o más, según cuántas variables se usen para definir los grupos.

5.1.14. Gráficos de dispersión

5.1.14.1. Un diagrama de dispersión o gráfica de dispersión o gráfico de burbujas gráfico de bolas es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos.

5.1.14.1.1. Número de variables: 2 o más, según cuantas variables se usen para definir los grupos por colores y marcadores.

5.1.15. Matriz de gráficos de dispersión

5.1.15.1. Muestra posibles relaciones entre múltiples variables, examinando todas las combinaciones de dos. Se pueden agregar gráficos adicionales: histogramas para cada variable a fin de identificar valores atípicos, elipses de densidad para cada gráfico de dispersión a fin de identificar valores atípicos multidimensionales, mapas de calor de correlaciones para aclarar posibles relaciones.

5.1.15.1.1. Número de variables: varias.

5.1.16. Gráficos circulares

5.1.16.1. Una gráfica circular es una forma de organizar los datos usando los sectores de un círculo.

5.1.16.1.1. Número de variables: 1 o más.

5.1.17. Mapas de calor

5.1.17.1. son una representación gráfica de datos donde los valores se representan mediante colores.

5.1.17.1.1. Número de variables: 2 o más

5.1.18. Diagramas de tallo y hojas

5.1.18.1. El tallo es todo lo que va antes del dígito final, y la hoja es el dígito final. Escribe los tallos en una columna vertical y no te saltes los tallos solo porque no tienen ningún dato.

5.1.18.1.1. Número de variables: 1.

6. Medidas de dispersión

6.1. Las medidas de dispersión tratan, a través del cálculo de diferentes fórmulas, de arrojar un valor numérico que ofrezca información sobre el grado de variabilidad de una variable. Las medidas de dispersión más conocidas son: el rango, la varianza, la desviación típica y el coeficiente de variación (no confundir con coeficiente de determinación). A continuación veremos estas cuatro medidas.

6.1.1. Rango

6.1.1.1. El rango es un valor numérico que indica la diferencia entre el valor máximo y el mínimo de una población o muestra estadística.

6.1.1.1.1. Su fórmula es: R = Máxx – Mínx

6.1.2. Varianza

6.1.2.1. La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones. Su fórmula es la siguiente:

6.1.2.1.1. X → Variable sobre la que se pretenden calcular la varianza xi → Observación número i de la variable X. i puede tomará valores entre 1 y n. N → Número de observaciones. x̄ → Es la media de la variable X.

6.1.3. Desviación típica

6.1.3.1. La desviación típica es otra medida que ofrece información de la dispersión respecto a la media. Su cálculo es exactamente el mismo que la varianza, pero realizando la raíz cuadrada de su resultado. Es decir, la desviación típica es la raíz cuadrada de la varianza.

6.1.3.1.1. X → Variable sobre la que se pretenden calcular la varianza xi → Observación número i de la variable X. i puede tomará valores entre 1 y n. N → Número de observaciones. x̄ → Es la media de la variable X.

6.1.4. Coeficiente de variación

6.1.4.1. Su cálculo se obtiene de dividir la desviación típica entre el valor absoluto de la media del conjunto y por lo general se expresa en porcentaje para su mejor comprensión.

6.1.4.1.1. X → Variable sobre la que se pretenden calcular la varianza σx → Desviación típica de la variable X. | x̄ | → Es la media de la variable X en valor absoluto con x̄ ≠ 0

7. Tabla para datos

7.1. https://youtu.be/Nm7log51vFA