MINERÍA DE DATOS

Comienza Ya. Es Gratis
ó regístrate con tu dirección de correo electrónico
MINERÍA DE DATOS por Mind Map: MINERÍA DE DATOS

1. Tareas en el descubrimiento de patrones de datos

1.1. Descriptivas

1.1.1. Hacer que los datos se organicen de manera comprensible a través de patrones y modelos fáciles de usar. Enfocados generalmente a la clasificación POST HOC.

1.1.1.1. Asociación

1.1.1.2. Dependencia

1.1.1.3. Reducción de la dimensión

1.1.1.4. Análisis exploratorio

1.1.1.5. Clasificación POST HOC

1.1.1.5.1. Clustering

1.1.1.5.2. Segmentación

1.2. Predictivas

1.2.1. Tener la capacidad de prever valores no definidos o futuros en una u otra características de sus datos. Enfocadas a la modelización y clasificación AD HOC.

1.2.1.1. Clasificación AD HOC

1.2.1.1.1. Discriminante

1.2.1.1.2. Árboles de decisión

1.2.1.2. Modelización

1.2.1.2.1. Regresión

1.2.1.2.2. Modelos de elección directa

1.2.1.2.3. Análisis de varianza

1.2.1.2.4. Análisis canónico

1.2.1.2.5. Redes neuronales

2. Técnicas predictivas

2.1. Bayesianas

2.1.1. Razones

2.1.1.1. Constituyen un método muy válido y práctico para realizar inferencias con los datos que disponemos, lo que implica inducir modelos probabilísticos que, una vez calculados, se pueden utilizar con otras técnicas de minería de datos.

2.1.1.2. Son extremadamente útiles en la comprensión de otras técnicas de inteligencia artificial y minería de datos que no trabajan con las probabilidades de las que nos dotan las técnicas bayesianas. Esta combinación de métodos es muy provechosa para optimizar las soluciones de algunos problemas planteados en la minería de datos.

2.1.2. Conceptos

2.1.2.1. Teorema de Bayes

2.1.2.1.1. • P(h) es la probabilidad a priori de que se cumpla la hipótesis h. Esta probabilidad contiene el conocimiento que tenemos de que la hipótesis h es correcta.

2.1.2.1.2. P(h/D) es la probabilidad a posteriori de que se cumpla la hipótesis h una vez conocidos los datos D. Esta expresión refleja la influencia que tienen los datos observados sobre la hipótesis h.

2.1.2.1.3. • P(D/h) es la probabilidad de que los datos D sean observados en un escenario en el caso de que la hipótesis h sea correcta.

2.1.2.1.4. Sabemos que: P(h ∩ D) = P(h) ∗ P(D/h)) = P(D) ∗ P(h/D)

2.1.3. Redes Bayesianas

2.1.3.1. Definición

2.1.3.1.1. Las redes bayesianas son métodos estadísticos que representan la incertidumbre a través de las relaciones de independencia condicional que se establecen entre ellas.

2.1.3.2. Cualidades

2.1.3.2.1. Tienen la habilidad de codificar la causalidad entre las variables, por lo que han sido muy utilizadas en el modelado o en la búsqueda automática de estructuras causales

2.1.3.2.2. La potencia de las redes bayesianas está en su capacidad de codificar las dependencias/independencias relevantes considerando no solo las dependencias marginales sino también las dependencias condicionales entre conjuntos de variables.

2.1.3.3. Cualitativa

2.1.3.3.1. Mediante la representación gráfica del conocimiento está articulada en la definición de la relaciones de dependencia/independencia. Utilizar la representación gráfica a través del grafo hace que las redes bayesianas sean una herramienta muy poderosa y atractiva como representación del conocimiento.

2.1.3.4. Cuantitativa

2.1.3.4.1. a) el concepto de probabilidad, como medida del grado de creencia subjetiva relativa a un evento.

2.1.3.4.2. b) un conjunto de funciones de probabilidad condicionada que definen a cada variable en el modelo.

2.1.3.4.3. c) el Teorema de Bayes, que se utiliza para actualizar las probabilidades con base a la experiencia.

3. Conceptos fundamentales

3.1. ¿Qué es "Dato"?

3.1.1. Un dato es un conjunto discreto de factores sobe un hecho real. Dentro de un contexto empresarial, el concepto de dato es definido como, un registro de transacciones.

3.2. ¿Qué es "Información"

3.2.1. A diferencia de los datos la información tiene significado (relevancia y propósito). No solo pueden formar potencialmente al que la recibe, si no que esta organizada para algún propósito.

3.3. Recolección de datos

3.3.1. Datos que seas adecuados para facilitar el análisis posterior mediante fuentes de datos fiables

3.4. Limpieza de datos

3.4.1. Discriminación de datos necesarios y los no deseados

3.5. Análisis de datos

3.5.1. Búsqueda de patrones y predicción de tendencias futuras, mediante herramientas y algoritmos de "Machine Learning"

3.6. Interpretación de resultados

3.6.1. El resultado del análisis es interpretado y en consecuencia a las conclusiones se implementan estrategias y decisiones de negocios en las organizaciones