KDD vs minería de datos
KDD (Knowledge Discovery in Databases) es un campo de la informática, que incluye las herramientas y teorías para ayudar a los humanos a extraer información útil y previamente desconocida (es decir, conocimiento) de grandes colecciones de datos digitalizados. KDD consta de varios pasos y Data Mining es uno de ellos. La minería de datos es la aplicación de un algoritmo específico para extraer patrones de los datos. No obstante, KDD y Data Mining se utilizan indistintamente.
¿Qué es KDD?
Como se mencionó anteriormente, KDD es un campo de la informática, que se ocupa de la extracción de información previamente desconocida e interesante a partir de datos sin procesar. KDD es todo el proceso de intentar dar sentido a los datos mediante el desarrollo de métodos o técnicas adecuados. Este proceso se ocupa del mapeo de datos de bajo nivel en otras formas que son más compactas, abstractas y útiles. Esto se logra creando informes breves, modelando el proceso de generación de datos y desarrollando modelos predictivos que pueden predecir casos futuros. Debido al crecimiento exponencial de los datos, especialmente en áreas como los negocios, KDD se ha convertido en un proceso muy importante para convertir esta gran cantidad de datos en inteligencia comercial, ya que la extracción manual de patrones se ha vuelto aparentemente imposible en las últimas décadas. Por ejemplo,Actualmente se utiliza para diversas aplicaciones, como análisis de redes sociales, detección de fraudes, ciencia, inversión, fabricación, telecomunicaciones, limpieza de datos, deportes, recuperación de información y principalmente para marketing. KDD se usa generalmente para responder preguntas como ¿cuáles son los principales productos que podrían ayudar a obtener altas ganancias el próximo año en Wal-Mart? Este proceso tiene varios pasos. Comienza con el desarrollo de una comprensión del dominio de la aplicación y el objetivo y luego crea un conjunto de datos de destino. A esto le sigue la limpieza, preprocesamiento, reducción y proyección de datos. El siguiente paso es usar Data Mining (explicado a continuación) para identificar el patrón. Finalmente, el conocimiento descubierto se consolida visualizando y / o interpretando.deportes, recuperación de información y principalmente para marketing. KDD se usa generalmente para responder preguntas como ¿cuáles son los principales productos que podrían ayudar a obtener altas ganancias el próximo año en Wal-Mart ?. Este proceso tiene varios pasos. Comienza con el desarrollo de una comprensión del dominio de la aplicación y el objetivo y luego crea un conjunto de datos de destino. A esto le sigue la limpieza, preprocesamiento, reducción y proyección de datos. El siguiente paso es usar Data Mining (explicado a continuación) para identificar el patrón. Finalmente, el conocimiento descubierto se consolida visualizando y / o interpretando.deportes, recuperación de información y principalmente para marketing. KDD se usa generalmente para responder preguntas como ¿cuáles son los principales productos que podrían ayudar a obtener altas ganancias el próximo año en Wal-Mart? Este proceso tiene varios pasos. Comienza con el desarrollo de una comprensión del dominio de la aplicación y el objetivo y luego crea un conjunto de datos de destino. A esto le sigue la limpieza, preprocesamiento, reducción y proyección de datos. El siguiente paso es usar Data Mining (explicado a continuación) para identificar el patrón. Finalmente, el conocimiento descubierto se consolida visualizando y / o interpretando. Comienza con el desarrollo de una comprensión del dominio de la aplicación y el objetivo y luego crea un conjunto de datos de destino. A esto le sigue la limpieza, el preprocesamiento, la reducción y la proyección de datos. El siguiente paso es usar Data Mining (explicado a continuación) para identificar el patrón. Finalmente, el conocimiento descubierto se consolida visualizando y / o interpretando. Comienza con el desarrollo de una comprensión del dominio de la aplicación y el objetivo y luego crea un conjunto de datos de destino. A esto le sigue la limpieza, preprocesamiento, reducción y proyección de datos. El siguiente paso es usar Data Mining (explicado a continuación) para identificar el patrón. Finalmente, el conocimiento descubierto se consolida visualizando y / o interpretando.
¿Qué es la minería de datos?
Como se mencionó anteriormente, Data Mining es solo un paso dentro del proceso general de KDD. Hay dos objetivos principales de minería de datos definidos por el objetivo de la aplicación, a saber, la verificación o el descubrimiento. La verificación es verificar la hipótesis del usuario sobre los datos, mientras que el descubrimiento busca automáticamente patrones interesantes. Hay cuatro tareas principales de minería de datos: agrupación, clasificación, regresión y asociación (resumen). La agrupación consiste en identificar grupos similares a partir de datos no estructurados. La clasificación consiste en aprender reglas que se pueden aplicar a nuevos datos. La regresión consiste en encontrar funciones con un error mínimo en los datos del modelo. Y la asociación busca relaciones entre variables. Luego, se debe seleccionar el algoritmo de minería de datos específico. Dependiendo del objetivo, diferentes algoritmos como regresión lineal, regresión logística,Se pueden seleccionar árboles de decisión y Naïve Bayes. Luego, se buscan patrones de interés en una o más formas de representación. Por último, los modelos se evalúan utilizando precisión predictiva o comprensibilidad.
¿Cuál es la diferencia entre KDD y Data mining?
Aunque los dos términos KDD y Data Mining se utilizan de forma intercambiable, se refieren a dos conceptos relacionados pero ligeramente diferentes. KDD es el proceso general de extraer conocimiento de los datos, mientras que Data Mining es un paso dentro del proceso KDD, que se ocupa de identificar patrones en los datos. En otras palabras, Data Mining es solo la aplicación de un algoritmo específico basado en el objetivo general del proceso KDD.