PROCESO DE DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

Electrónica básica

Get Started. It's Free
or sign up with your email address
PROCESO DE DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS by Mind Map: PROCESO DE DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

1. Proceso KDD

1.1. Desarrollo y entendimiento del dominio de la aplicación, el conocimiento relevante y los objetivos del usuario final.

1.2. Creación del conjunto de datos objetivo, seleccionando el subconjunto de variables o ejemplos sobre los que se realizará el descubrimiento.

1.3. Preprocesado de los datos: eliminación de ruido, estrategias para manejar valores ausentes, normalización de los datos, etc.

1.4. Transformación y reducción de los datos. Incluye la búsqueda de características útiles de los datos según sea el objetivo final, la reducción del número de variables y la proyección de los datos sobre espacios de búsqueda en los que sea más fácil encontrar una solución.

1.5. Elección del tipo de sistema para minería de datos. Esto depende de sí el objetivo del proceso de KDD es la clasificación, regresión, agrupamiento de conceptos (clustering), detección de desviaciones, etc.

1.6. Elección del algoritmo de minería de datos.

1.7. Minería de datos. En este paso se realiza la búsqueda de conocimiento con una determinada representación del mismo.

1.8. Interpretación del conocimiento extraído, con posibilidad de iterar de nuevo desde el primer paso.

1.9. Consolidación del conocimiento descubierto, incorporándolo al sistema, o simplemente documentándolo y enviándolo a la parte interesada.

2. Fases del KDD

2.1. • Recolección de Datos. • Selección, Limpieza y Transformación de Datos. • Minería de Datos. • Evaluación y Validación. • Interpretación y Difusión. • Actualización y Monitorización.

3. Minería de Datos

3.1. Estudia métodos y algoritmos que permiten la extracción automática de información sintetizada que permite caracterizar las relaciones escondidas en la gran cantidad de datos; también se pretende que la información obtenida posea capacidad predictiva, facilitando el análisis de los datos de forma eficiente.

4. Lenguaje de alto nivel

4.1. El conocimiento descubierto se representa en un lenguaje de alto nivel, inteligible desde el punto de vista humano. Por tanto, quedan descartadas, dentro del KDD, representaciones de bajo nivel como las generadas por redes neuronales (a pesar de que éstas son un método válido de minería de datos).

5. Precisión

5.1. Los descubrimientos representan el contenido de la base de datos que, como reflejo de la realidad, puede contener imperfecciones y ruido. Por tanto, será raro que algún conocimiento se cumpla con todos los datos.

6. Interés

6.1. Aunque es posible extraer numerosos patrones de cualquier base de datos, sólo se consideran como conocimiento aquéllos que resulten interesantes según ciertos criterios del usuario. En particular, un patrón interesante debe ser nuevo, potencialmente útil y no trivial.

7. Eficiencia

7.1. Son deseables procesos de descubrimiento que puedan ser eficientemente implementados en una computadora. Se considera que un algoritmo es eficiente cuando su tiempo de ejecución y el espacio de memoria requerido crecen de forma polinomial con el tamaño de los datos de entrada.