ANÁLISIS DESCRIPTIVO Y EXPLORATORIO DE DATOS

olis

Comienza Ya. Es Gratis
ó regístrate con tu dirección de correo electrónico
ANÁLISIS DESCRIPTIVO Y EXPLORATORIO DE DATOS por Mind Map: ANÁLISIS DESCRIPTIVO Y EXPLORATORIO DE DATOS

1. ESTADÍSTICA DESCRIPTIVA

1.1. Busca describir en pocas medidas resumen las principales características de un amplio conjunto de datos, se le denomina Estadística Descriptiva

1.1.1. DISTRIBUCIÓN DE FRECUENCIAS DE LA VARIABLE

1.1.1.1. Valores observados y sus frecuencias relativas y absolutas

1.1.2. VARIABLE DE ESTUDIO

1.1.2.1. Caracteristica de observar en cada uno de los elementos de la población o muestra

1.1.3. MUESTRA

1.1.3.1. Subconjunto de una determinada población

1.1.4. ELEMENTOS DE UNA POBLACIÓN

1.1.4.1. Cada uno de los objetos de que esta constituida la población

1.1.5. POBLACIÓN

1.1.5.1. Conjunto de objetos

2. MEDIDAS DE FORMA

2.1. Sintetizan la información además, tratan de indicar cómo están de concentrados los valores en torno a dichas medidas.

2.1.1. SE CLASIFICAN EN

2.1.1.1. Asimetría y curtosis

2.1.1.1.1. Medidas de asimetria: Carece de unidades de medida, si la distribución es simétrica toma valores cercanos a 0.

3. NIVELES DE MEDIDAS DE VARIABLES

3.1. NOMINAL

3.1.1. No pueden ser ordenadad

3.2. ORDINAL

3.2.1. Tienen un orden jerárquico

3.3. INTERVALO

3.3.1. Punto cero es un valor y cuentan negativos

3.4. RAZON

3.4.1. Punto cero significativo, representa ausencia

4. MEDIDAS DE POSICIÓN

4.1. MEDIA ARITMETICA

4.1.1. Suma de todos los valores de la distribución dividida por el número de casos.

4.1.1.1. Ventajas

4.1.1.1.1. Intervienen todos los valores de las variables

4.1.1.1.2. Es única

4.1.1.1.3. Siempre se puede calcular

4.1.1.1.4. Fácil de interpretar

4.2. MEDIA GEOMÉTRICA

4.2.1. Raíz n-esima del producto de todos los valores de la variable.

4.2.1.1. Ventajas

4.2.1.1.1. En el calculo intervienen todos los valores

4.2.1.1.2. Es menos sensible a los valores extremos

4.3. MEDIA ARMÓNICA

4.4. MEDIANA

4.4.1. Valor de la distribución que deja a ambos lados el mismo numero de casos.

4.4.1.1. Ventajas

4.4.1.2. Tiene las mismas unidades que la variable

4.4.1.3. Medida robusta frente a valores atípicos

4.4.1.4. Fácil interpretación

4.4.1.4.1. Inconvenientes

4.4.1.4.2. No todos los valores de la distribución entran en el calculo

4.4.1.4.3. Su estimación es menos precisa que de la media

4.5. MODA

4.5.1. Valor de la distribución mas frecuente, es la medida mas representativa en caso de distribuciones en escala, nominal u ordinal.

5. VALORES ATÍPICOS

5.1. Ocurrencias destacables por ser sucesos que ocurren muy pocas veces.

5.2. CAUSAS

5.2.1. Errores de codificacion

5.2.2. Ocurrencia de un suceso muy poco probable o extraordinario

5.3. La mejor recomendación es descartarlos como valores perdidos, de lo contrario podrían afectar mas adelante en la investigación

5.4. DETECCIÓN DE VALORES ATÍPICOS:

5.4.1. Diagrama de cajas

5.4.2. Puntuaciones Z

6. MEDIDAS DE DISPERSIÓN

6.1. MEDIDAS DE DISPERSIÓN ABSOLUTAS

6.1.1. Recorrido

6.1.2. Rango intercuartilico

6.1.3. Varianza

6.1.4. Desviación típica

6.2. MEDIDAS DE DISPERSIÓN RELATIVAS

6.2.1. Coeficiente de apertura

6.2.1.1. Es el cociente entre el mayor y menor valor de la distribución.

6.2.2. Coeficiente de variación de Pearson

7. ANÁLISIS EXPLORATORIO DE DATOS

7.1. Se utilizan tecnicas muy sencillas donde abundan las representaciones graficas

7.1.1. FAMILIARIZÁNDOSE CON LA NATURALEZA DE LOS DATOS

7.1.1.1. Origen de los datos

7.1.1.1.1. Nivel de medida de las variables

7.1.2. OBJETIVOS

7.1.2.1. Detecta valores atípicos

7.1.2.2. Pone en manifiesto las relaciones más evidentes que puedan existir entra las variables

7.1.2.3. Estudia las principales características de la distribución de las variables

7.1.2.4. Familiarizarse con la naturaleza de los datos

8. TABLAS DE FRECUENCIA

8.1. FRECUENCIA RELATIVA

8.1.1. Nª de casos ordenados

8.2. FRECUENCIA ABSOLUTA

8.2.1. Nª de veces que aparece un valor

8.3. FRECUENCIA DE DOBLE ENTRADA

8.3.1. Mejor forma de utilizar variables estadisticas

8.3.1.1. Presenta distintos tipos de frecuencia

8.4. COEFICIENTE 2X

8.4.1. Presenta distintos tipos de frecuencia

8.4.1.1. RELATIVAS

8.4.1.1.1. Es la frecuencia absoluta dividida por el número de casos y se representa con la letra f.

8.4.1.2. MARGINALES

8.4.1.2.1. Distribuciones de frecuencias de las dos variables estadisticas

8.4.1.3. CONDICIONALES

8.4.1.3.1. Frecuencias que posee una variable si solo consideramos un valor

8.4.2. Se utiliza principalmente para determinar que punto existe entre dos variables consideradas

9. CONTRASTE DE HIPÓTESIS

9.1. Se requiere para realizar análisis mas complejos como:

9.1.1. Normalidad

9.1.1.1. la forma de la distribución de la variable se corresponde con la forma de una distribución normal, se puede rebajar a dos condiciones.

9.1.1.1.1. Distribución simétrica

9.1.1.1.2. Distribución unanimidad

9.1.1.2. Contrastes de hipótesis

9.1.1.3. Para determinar el grado de confianza de que los valores obtenidos provengan de una distribución norma se emplea el test de Kolgomorov-Smirnov.

9.1.1.4. Para muestras pequeñas se emplea el test de Shapiro Wilks

9.1.2. Homocedasticidad

9.1.2.1. Variabilidad de la variable a través de los grupos definidos por los factores, dependerá de la media y para verificar esta propiedad se utiliza el test de Levene.

10. RELACIONES ENTRE LAS VARIABLES

10.1. continua por continua

10.1.1. para determinar si existe relación entre dos variables se usa el diagrama de dispersión.

10.2. continua por continua mas una categoria

10.2.1. se usa el diagrama de dispersión pero con marcas para poder identificar a que categoría pertenecen.

10.3. categoría por categoría

10.3.1. estudiar la tabla de frecuencias de doble entrada y el coeficiente x"2.

10.4. Más de dos variables continuas

10.4.1. sirve para representar varios gráficos de dispersión en un mismo marco.

10.5. Continua por categórica

11. COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON

11.1. Mide el grado de asociación entre dos variables ,es decir, hasta que punto dos variables son proporcionales.

12. ESTUDIO DE LAS PRINCIPALES CARACTERÍSTICAS DE LA DISTRIBUCIÓN DE LAS VARIABLES

12.1. Valores en rango

12.1.1. Características de forma

12.1.1.1. una vez corregidos los valores mal codificados empezamos a estudiar las características de las variables . Las técnicas gráficas a usar son el histograma y gráfico de cajas.

12.1.1.1.1. HISTOGRAMA

12.2. Consiste en tratar de detectar si existen valores mal codificados