proceso de minería de datos

11 Sistemas de análisis de la información

11 Sistemas de análisis de la información




 

Los sistemas de análisis de la información son muy utilizados en la actualidad por muchas empresas. La información es poder y en este caso para muchas empresas el gestionarla de la mejor forma es necesario no sólo para obtener ventajas competitivas sino para su propia supervivencia dado que las demás empresas del sector ya lo hacen. Por lo tanto ha pasado de ser de un añadido a una necesidad. De la mejor o peor gestión de la información muchas veces depende el éxito de un negocio.

 

11.1 Minería de datos.

 

No mucha gente conoce el término Data Mining (aunque es perfectamente conocido en círculos informáticos y empresariales) pero la verdad es que es algo inherente a sus vidas.

 

Cada vez que compramos en una tienda o gran almacén y presentamos nuestra tarjeta de fidelización (esa con la que nos hacen descuentos si compramos ciertos productos o nos obsequian con un porcentaje de nuestras compras) estamos alimentando al sistema de data mining de la empresa. Lo que estamos generando son datos asociados a nuestra identidad de tal forma que esos datos se almacenan en grandes servidores.

 

El término minería de datos se ha utilizado en estadística para referirse al uso de datos que derivaban en conclusiones erróneas.

 

Cada vez que hacemos una compra nuestros datos y las cosas que compramos, la hora, el día, el lugar,etc quedan registradas (patrones de compra) y por lo tanto nuestros patrones de compra o hábitos de consumo.

 

Esos datos les sirven a los grandes almacenes para interpretar patrones y ayudar a los responsables del mismo a servir mejor a sus clientes y tomar decisiones con mejor información. Imaginemos que se analizan los pedidos a domicilio de un gran almacén y se observa que los viernes se generan muchos más pedidos que el resto de la semana. Una decisión que se podría tomar es reforzar el turno del viernes con más efectivos y ofrecer así un mejor servicio al cliente.

 

Al mismo tiempo esa información le puede servir a estos grandes almacenes para “vender más” o venderle al cliente productos más caros o que tengan más margen para el comercio. La información siempre es un arma de doble filo y este es el punto en el que muchos de los críticos de estos sistemas hacen hincapié.

 

En muchos países (sobre todo en Estados Unidos) existen organizaciones dedicadas a investigar empresas que almacenan grandes cantidades de datos, algunos de ellos sensibles y el uso que estas empresas les dan.

 

Por lo tanto, podríamos definir Data Mining como la disciplina que intenta encontrar patrones (no conocidos) útiles y válidos en grandes bases de datos o conjuntos de datos.

 

El objetivo es encontrar relaciones entre los datos no sospechadas y presentar los datos de una manera que sean entendibles y útiles a los usuarios. En principio, los datos en bruto no aportan información, las técnicas antiguas se ha visto que no funcionan cuando se procesan grandes volúmenes de datos. Estas nuevas técnicas de data mining aplican análisis de datos junto con algoritmos de búsqueda de patrones y son útiles a la hora de procesar estadísticas, aprendizaje automático, visualización de datos, etc.

 

¿Por qué esta necesidad de minería de datos?

 

Por muchas razones. La presión competitiva de las grandes empresas empuja a mejorar los sistemas, adaptarse a las necesidades de los clientes, adelantarse a sus competidores, etc. La información es un recurso que hay que gestionarlo de la mejor manera posible y esto requiere procesarla de una manera eficiente y efectiva.

 

Imagina los millones de registros que se pueden generar en una cadena de grandes almacenes, una cadena hotelera, de automoción, etc. Si esta cantidad de información no se trata y se gestiona de forma eficiente ya llegará otro competidor que lo haga y te supere.

 

Actualmente este tipo de técnicas se utilizan mucho en el comercio electrónico. Hace años eran técnicas de laboratorio o experimentales pero hoy en día todas las empresas líderes en sus sectores las implementan en mayor o menor medida.

 

Tenemos que tener en cuenta que este tipo de técnicas no sustituyen a las personas sino que le proporcionan indicios, patrones y relaciones en los datos que hacen que los gestores entiendan mejor sus negocios y puedan tomar decisiones más acertadas y fundamentadas.

 

11.1.1  El proceso de descubrimiento de conocimiento y la minería de datos.

 

Veamos el proceso de descubrimiento de información y en qué parte actúan las técnicas de minería de datos.

 

proceso de minería de datos

Figura 11.1. Proceso de descubrimiento de conocimiento.

  • Datos: Corresponden a los datos en bruto de las bases de datos operacionales.

 

  • Paso A: Limpieza, clasificación y agrupación de los datos. Los datos en bruto son procesados para incorporarlos al Data Warehouse, un almacén de datos especializada en tratamiento de datos con fines de data mining. La limpieza de datos implica filtrar datos, eliminar datos inconsistentes, datos inconexos, etc.

 

  • Paso B: Preparación de datos. Generalmente se transforman los datos y se reduce su dimensionalidad para poder tratarlos de una manera más eficiente. Además se seleccionan hipótesis a verificar o se selecciona el modelo adecuado de análisis. La preparación de datos normalmente se lleva la mayoría del tiempo y esfuerzo a la hora de realizar este proceso.

 

  • Paso C: Data Mining. En este proceso se aplican varias técnicas y algoritmos (clustering, regresión, clasificación, detección de desviaciones, etc) a los datos ya transformados. A la hora de realizar data mining, existen los métodos descriptivos en los que lo que se busca es generar patrones interpretables por el usuario que describen los datos en sí mismos o método predictivos en los que se busca el predecir sucesos o hechos que ocurrirán o podrían ocurrir en un futuro.

 

  • Modelos y patrones: Hay que hacer distinciones entre los modelos y los patrones. En un símil, si utilizamos un molde para hacer bombones, el molde sería el modelo y los bombones fabricados serían los patrones.

 

  • Paso D: Evaluación de los patrones y verificación de los mismos. Hay que evaluar si los resultados obtenidos son correctos y se pueden consolidar y utilizar en el futuro.

 

11.2  OLAP.

 

OLAP es el acrónimo de online analytical processing que traducido al español sería procesamiento en línea analítico o lo que es lo mismo, una manera de extraer de forma selectiva datos y visualizarlos y analizarlos desde distintos puntos de vista.

 

Como se comentó en el capítulo 4, las bases de datos relacionales permiten un cierto tipo de consultas pero hay otras que resultan harto difíciles realizarlas en este tipo de bases de datos. Un ejemplo de ello puede ser mostrar el número de productos vendidos en el mes de agosto por una cadena de perfumerías en la zona de Levante y compararlos con los mismos resultados del año anterior.

 

El problema de esta consulta radica en que las bases de datos tradicionales son bidimensionales (filas y columnas, las filas tienen los datos y las columnas los campos) mientras que las bases de datos OLAP son multidimensionales. Por lo tanto, conocer datos con varias dimensiones (zona de levante, productos vendidos, mes de agosto,…) son operaciones sencillas para una base de datos OLAP.

 

Como se ha dicho, en las bases de datos OLAP, los datos se almacenan de forma multidimensional. Cada atributo puede ser una dimensión diferente (productos, zona geográfica, periodo de tiempo, etc). En el ejemplo anterior, la solución sería establecer un corte en las diferentes dimensiones que hemos estado hablando y de esa manera obtendremos la información.

 

OLAP puede utilizarse para realizar data mining y de esa manera poder descubrir patrones y relaciones entre datos.

 

Curiosidad.

Cuando se empezó a trabajar en este tipo de tecnologías (OLAP y Data Mining) algunos grandes almacenes descubrieron que en sus tiendas había una relación entre pañales de bebé y cerveza. Existía un cierto número de compras en las que ambos productos eran comprados por el mismo cliente. Una vez descubierto este hecho dichos almacenes colocaron la cerveza y los pañales de bebé en zonas cercanas para que el cliente cogiera ambos productos y así maximizar las ventas.

 

Generalmente, los técnicos que utilizan la tecnología OLAP lo que hacen es alimentar dicha base de datos OLAP con las bases de datos transaccionales que residen en servidores relacionales. Esa importación se puede hacer mediante ODBC (Open DataBase Conectivity) u otro sistema similar.

 

Dos de los productos OLAP más utilizados son Oracle Express Server e Hyperion Solution Essbase. Generalmente este tipo de sistemas propietarios establecen el coste del producto dependiendo del número de personas que van a hacer uso del mismo.

 

oracle express

Figura 11.2. Interfaz web de Oracle Express.

¿Qué es business intelligence o inteligencia de negocio?

 

Los analistas de cualquier negocio lo que necesitan es tener referencias o instantáneas de un negocio para ver tendencias, datos agregados, ver las variables que hacen que se rompan esas tendencias, etc.

 

La inteligencia de negocio es ese proceso. Se extraen los datos de una base de datos OLAP para después analizarlos y así poder tomar decisiones apoyadas por información contrastada.

11.3  Dashboard/scorecard.

 

Los dashboards y scorecards más conocidos como cuadros de mando son herramientas analíticas que se están utilizando con más asiduidad. Las empresas invierten cada vez más en business intelligence o inteligencia de negocio y este tipo de herramientas son muy utilizadas en esos menesteres. Los gestores no solamente necesitan números o informes sino que necesitan algo más. Necesitan saber el porqué y el cómo de esos datos por lo tanto estas herramientas les ayudan en su tarea de gestión.

 

Para mucha gente un dashboard o un scorecard es lo mismo pero realmente tienen algunas diferencias entre ellos.

 

Un dashboard o cuadro de mandos es algo parecido al cuadro de mandos que pueda tener un coche, un avión u otro aparato. Es una herramienta que muestra una serie de métricas y dichas métricas deben ser interpretadas por el gestor.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.