Fayyad en 1996 define el Knowledge Discovery from Databases, también conocido como KDD,o descubrimiento de conocimiento en bases de datos como “el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de los datos.” En esta definición se introducen las propiedades deseables del conocimiento extraído:
- válido: los patrones deben ser precisos para nuevos datos y no solo para aquellos que se han utilizado en su concepción, con un cierto grado de incertidumbre.
- novedoso: debe aportar algo que previamente se desconocía.
- potencialmente útil: que debe devolver algún tipo de beneficio.
- comprensible: la información incomprensible no aporta conocimiento en cuanto a su utilidad.
Otra acepción define el Knowledge Discovery from Databases como el proceso que inicia un sujeto, normalmente una empresa o una entidad, con el fin de obtener un conocimiento en forma de patrón. Para comprender esta acepción es necesario entender el concepto de conocimiento. La Real Academia Española (RAE) lo concreta como “acción y efecto de averiguar por el ejercicio de las facultades intelectuales la naturaleza, cualidades y relaciones de las cosas”.
Por tanto, el objetivo del KDD es averiguar la naturaleza, cualidades o relaciones entre elementos. El hecho de averiguar supone que el KDD sea un proceso relativamente largo, aunque depende del dominio del problema y el propósito final. Por esta razón el proceso de KDD se ha fragmentado en varias partes denominadas fases.
Como se ha mencionado, el KDD no es un proceso inmediato, sino que requiere de diversas fases que son cruciales para obtener conocimiento de alta calidad (ver figuras «Fases del kdd»). La mayor parte del proceso de KDD, así como de cada una de las fases, es iterativo e interactivo. Se entiende por iterativo que la estructura temporal no sigue una progresión lineal, sino que el hecho de terminar una fase puede tanto requerir avanzar a una fase posterior o regresar para repetir una fase anterior con mayor precisión. Por interactivo se entiende la necesidad del usuario, que además debe estar familiarizado con el proceso, debe apoyar cada una de las fases de forma activa.
El proceso comienza por determinar las metas y termina con la implementación del conocimiento descubierto –no con la obtención del conocimiento, como puede parecer– y busca como resultado tomar decisiones en base a esa implementación. Dejar de evaluar el conocimiento por cualquier razón hace que todo el proceso que se ha realizado hasta entonces sea una pérdida de tiempo y recursos, como puede ser el uso del personal dedicado que podría estar dedicado a otra tarea.
Por ejemplo, una empresa dedicada al sector de la telefonía móvil opta por hacer un proceso de descubrimiento del conocimiento con la meta específica de abrir nuevas sucursales para mejorar el trato con el cliente. El resultado del proceso, después de que esta empresa desarrolle todas las fases, determina cuales son las comunidades autónomas en las que se realiza una mayor cantidad de portabilidades y su tasa de crecimiento anual. Es tarea de los directivos utilizar el conocimiento adquirido para tomar las decisiones de actuación. Si el conocimiento a la hora de tomar la decisión es ignorado o, por otro lado, la meta inicial estuvo mal definida; todo el proceso habrá sido en vano. Otra cuestión distinta es que la decisión tomada por la empresa basada en el conocimiento adquirido sea no realizar ninguna acción. El conocimiento también puede servir para descartar ideas que a priori pueden parecer buenas, pero que realmente no lo son.
El número de fases varía según cada autor en cuanto a que agrupan varias fases en una superior aunque en esencia todos cubren la misma metodología. Las fases son las siguientes:
Entender el dominio y definir las metas
No es en sí misma una fase porque no suma valor añadido al proceso sino que se prepara una visión general de qué tareas se van a realizar y de qué manera se van a realizar. Los responsables que están ejecutando el proceso KDD en esta fase deben entender el entorno en el que el descubrimiento del conocimiento tiene lugar para que este se realice correctamente Sólo conociendo el contexto de cada organización o de cada problema en particular se puede determinar qué información se necesitará en la siguiente fase.
Fase de integración y recopilación
En esta fase se reconocen y reúnen los datos con los que se trabajará en el futuro. Estos datos pueden proveer de 2 fuentes diferenciadas: fuentes internas y fuentes externas.
Las fuentes internas son las más fáciles de obtener y representa las bases de datos transaccionales propias de la organización utilizadas tradicionalmente para el procesamiento transaccional en línea u OLTP (On-Line Transaction Processing), aunque pueden no ser utilizadas para tal propósito. Un ejemplo de dato obtenido de una fuente interna podría ser el número de ventas brutas o la fecha de entrega del producto.
Las fuentes externas representan la información que no pertenece al ámbito de las operaciones de la empresa pero que son importantes para el análisis. En muchos casos habrá que adquirir datos desde bases de datos públicas como puede ser el censo, los datos demográficos o climatológicos o desde otras bases de datos privadas a la que la organización tenga acceso. Un ejemplo de esto podría ser la media de precipitaciones anuales en una región.
A este respecto es importante señalar la utilización de data warehouses o almacenes de datos que proporciona metodologías y la tecnología para efectuar a la vez procesamiento transaccional en tiempo real (OLTP, utilizado a diaria por las empresas para hacer funcionar sus aplicaciones) y procesamiento analítico en tiempo real (OLAP, utilizado para obtener informes y resúmenes cruzando información).
Un almacén de datos es un conjunto de datos históricos, internos o externos, y descriptivos de un contexto o área de estudio, que están integrados y organizados de tal forma que permiten aplicar eficientemente herramientas para resumir, describir y analizar los datos con el fin de ayudar en la toma de decisiones. Su propósito es la recuperación de información, realizar análisis e informes y suele ser utilizado por usuarios con capacidad de decisión, como pueden ser ejecutivos o analistas.
El objetivo de esta fase es crear un almacén de datos que contenga la información que será utilizada. En ocasiones durante la construcción de este almacén de datos también se realizan tareas propias de limpieza e integración propias de la siguiente fase. No son dos fases muy diferenciadas temporalmente pero es conveniente visualizarlas individualmente.
Fase de selección, limpieza y transformación
Esta fase tiene como objetivo la mejora en la calidad del almacén de datos y trata de mostrar el conjunto de datos de la manera más apropiada para la siguiente fase: la minería de datos.
Extraer la información, tal y como se ha explicado en la fase anterior, de diversas fuentes da lugar a diversos tipos de imperfecciones que será necesario resolver. A un mayor número de imperfecciones en el almacén este verá disminuida su calidad. La tarea de eliminar estas imperfecciones se denomina limpieza.
Un tipo de datos sobre los que hay que efectuar tareas de limpieza son los datos irrelevantes o innecesarios. Estos aparecen cuando al hacer la recopilación de datos útiles, estos están acompañados de otros que no se incluyen en el dominio del problema.
También existen valores que no se adecuan al comportamiento general de los datos, los denominados valores outliers o valores atípicos (ver Figura «Datos faltantes y anómalos»). Los outliers no tienen por qué representar un error, sino que puede tratarse simplemente de un dato fuera de lo común. La mayoría de las veces estos valores van a hacer que el modelo se distorsione pero en otras ocasiones estos valores son justamente los que serán interesantes en algún aspecto. Por ejemplo, un cargo con tarjeta por un importe muy superior a los demás valores puede dar lugar a una acción fraudulenta o valores muy atípicos en el clima pueden dar lugar a algún suceso atmosférico. Por esta razón no es recomendable eliminar los valores outliers.
En la categoría de valores outliers también se identifican los valores denominados erróneos. Son valores que, ya sea por su contenido, tipo de dato, estructura o cualquier otra causa, no concuerdan con el resto del contexto y, presumiblemente, están equivocados. Por esa razón se denomina también outliers, ya que se no se sitúan en el comportamiento general de los datos. Los valores erróneos especialmente, así como los valores outliers generalmente, pueden tratarse de diversas maneras:
- Ignorar el valor. Tiene la contrapartida de que necesita un algoritmo de minería que soporte la ausencia de valores, pero a veces es necesario ya que tal valor representa la realidad. Es una realidad poco común, pero al fin y al cabo es una realidad y es conveniente mantenerlo.
- Eliminar la columna. Solución recomendable si existe otra columna con más fiabilidad. También es posible sustituirla por otra columna que marque la entrada como errónea o anómala.
- Eliminar la fila. Elimina fácilmente los datos faltantes pero ignora las causas de por qué no existe información sobre un dato.
- Reemplazar el valor. Esto es predecir el valor que no existe a través de otros datos. Para ello se puede hallar la media, la moda o cualquier variable estadística. Una solución más sencilla es modificarlo por nulo.
- Discretizar: Extrapolar valores continuos en valores discretos. Por ejemplo, clasificar cualquier altura superior a 2 metros para una persona como “Muy alto”, de esta manera cualquier altura superior, por muy alejada que esté situada de los valores comunes, se entenderá como muy alta.
Otro tipo de datos que pueden llegar a presentar algún tipo de problema son los valores faltantes o missing values (ver Figura «Datos faltantes y anómalos»). Estos son datos que por algún motivo no existen, bien porque se han perdido o bien porque nunca se han llegado a recopilar. También se reconocen como datos faltantes los valores que han sido introducidos para informar de que tal valor no existe.
Un ejemplo de valor faltante sería un sistema que obligara a introducir dos números de teléfono, uno fijo y otro móvil, para cada cliente, al llegar un cliente nuevo que no dispone de teléfono fijo, a este se le asigna un valor de “-1”. Otra posibilidad es que se haya registrado un cliente nuevo y, por tanto, este no disponga de gasto medio ya que no se puede calcular. Algunas soluciones para los valores faltantes, que son muy similares a los outliers, son:
- Ignorar el valor. Tiene la contrapartida de que necesita un algoritmo de minería que soporte la ausencia de valores,
- Eliminar la columna. Recomendable si existe un porcentaje alto de valores faltantes en esa columna.
- Eliminar la fila. Elimina fácilmente los datos faltantes pero ignora las causas de por qué no existe información sobre un dato.
- Reemplazar el valor. Esto es predecir el valor que no existe a través de otros datos. Para ello se puede hallar la media, la moda o cualquier variable estadística.
A fin de que la minería de datos sea más acertada, además de tratar con estos valores que representan un problema se requiere realizar una transformación de algunos valores de manera que estos se registren siguiendo la misma estructura y las mismas variables. Esta transformación estructuración es debida a que las distintas fuentes de donde se han extraído los valores han podido almacenarlos utilizando diferentes formatos. Por ejemplo, el campo DNI que ha sido almacenado siguiendo la estructura 12345678A en otra fuente se ha almacenado como 12345678-A o el campo Sexo que se ha almacenado como H/M, otra fuente ha utilizado Hombre/Mujer y otra distinta ha utilizado un campo booleano Hombre con valores 1/0. Dejar de unificar la estructura hará que el algoritmo de minería de datos encuentre que dos valores que contienen la misma información sean tratados como distintos.
La información elaborada de esta fase recibe el nombre de vista minable y será utilizado por la siguiente fase, la fase de minería de datos.
Fase de minería de datos
Esta es la fase más característica del proceso KDD. Tanto que, en muchas ocasiones, todo el proceso recibe su nombre. Es la más característica en cuanto a que su aplicación ofrece como resultado conocimiento que puede ser utilizado, pero no por ello es la más importante, ya que todas y cada una de las fases cumple una función esencial para la correcta obtención del conocimiento.
En esta fase se construye un modelo basándose en la vista minable que ha sido obtenida de la fase anterior. Este modelo puede ser utilizado para diferentes fines, por ello es necesario tomar algunas decisiones antes de comenzar con el proceso de minería: Determinar el tipo de tarea apropiado, elegir el tipo de modelo y elegir el algoritmo que más convenga.
Es una fase muy amplia que daría para un estudio individualizado.
Fase de evaluación e interpretación
Una vez obtenido el conocimiento y el patrón resultante de la fase de minería, el siguiente paso es evaluar como ese conocimiento se aproxima a la realidad en cuanto a las metas definidas en la primera fase.
La evaluación se realiza con dos conjuntos de datos pertenecientes a la vista minable. Uno de ellos se denomina training-set o conjunto de entrenamiento y el otro se denomina test-set o conjunto de prueba. El training-set será el utilizado para construir el modelo y el test-set se utilizará para aplicar el modelo obtenido con el training-set y comparar tal resultado con la realidad. Esta separación en dos conjuntos es necesaria ya que si se creara el modelo con el mismo conjunto con el que se realiza la prueba, el modelo resultante utilizará la misma información que ha sido utilizada para su construcción en la prueba, obteniendo estimaciones muy optimistas.
Existen diversas técnicas de evaluar el modelo en cuanto a la forma de separar el conjunto de entrenamiento del conjunto de prueba. La más sencilla, denominada validación simple, utiliza un porcentaje de la base de datos como conjunto de prueba y el resto como conjunto de entrenamiento.
Otra técnica es la denominada validación cruzada con n pliegues o n-fold cross validation. Esta técnica divide la base de datos en un total de n fragmentos (el más común es 10) y realizará un total de n pruebas. En cada una de las pruebas utilizará uno de los fragmentos como conjunto de prueba y el resto (n-1) será utilizado para construir el modelo. El resultado será la media de las n pruebas.
Un caso particular de la validación cruzada es el denominado Leave-one-out. Esta técnica divide el conjunto total en n conjuntos donde n es el número de entradas de manera que cada entrada será un conjunto. En cada prueba utilizará como conjunto de prueba una sola entrada y utilizará el resto como conjunto de entrenamiento. Tiene el inconveniente de que es muy costoso de procesar.
Dependiendo de la tarea que realice la minería de datos, la evaluación se hará de forma diferente. Por ejemplo:
- En una clasificación se medirá el número de entradas clasificadas correctamente entre el número de entradas de prueba.
- En una regresión se medirá la distancia (generalmente al cuadrado, que tendrá más en cuenta las distancias más grandes) entre el valor que se ha predicho y el valor real.
- En un agrupamiento se medirá la distancia al punto medio del grupo y la distancia entre grupos.
- En una tarea de reglas de asociación se evaluará de forma separada cada una de las reglas.
También pueden utilizarse medidas subjetivas como pueden ser interés, la novedad, la simplicidad o la comprensibilidad.
Fase de difusión y uso
Esta fase tiene como fin la aplicación correcta del conocimiento adquirido, en forma de modelo, en el dominio para el cual fue creado. Esto es usar el modelo de forma correcta por parte de los usuarios para los que se comenzó el proceso KDD.
La capacidad de un modelo para ser entendida por un usuario se denomina comprensibilidad. Una alta comprensibilidad hará que el usuario conozca el por qué el modelo ha tomado una decisión u otra, es decir, que conozca la técnica que se está utilizando y en qué elementos se basa. Es, por tanto, una característica totalmente subjetiva y no existe una metodología para medirla. En algunos modelos la comprensibilidad puede ser vital. Un médico necesita saber en qué se basa una decisión del modelo para dar un buen diagnóstico. Normalmente, cuando existe un mayor número de reglas es más complicado alcanzar más grados de comprensibilidad.
Con la finalidad de que la aplicación sea correcta, en esta fase también se realizan pruebas periódicas sobre el modelo ya que el dominio del problema puede variar en el tiempo haciendo que este quede desactualizado y, en ocasiones, completamente invalidado. Por ejemplo, un modelo que calcula el precio medio de una importación en base a varios criterios hará que un cambio en el sistema de aduanas o una variación del tipo de cambio haga que el modelo quede desactualizado. Ese mismo modelo podría verse invalidado, por ejemplo, con la aparición de una nueva moneda.
Otra posibilidad es realizar una comparación del modelo obtenido con otro modelo que, a priori, puede realizar mejores predicciones. Un nuevo modelo que actué mejor que otro en el dominio del problema que está actuando el antiguo modelo puede hacer que este último deje de ser utilizable, teniendo en cuenta que el nuevo modelo puede ofrecer mejores garantías de éxito.
Deja una respuesta