Ir al contenido principal

Aplicando Data Miner haciendo uso de un Análisis de Canasta en el Retail

Vamos a usar un análisis de canasta, como una una poderosa técnica de la minería de datos aplicada a un Supermercado para así mirar las posibles asociaciones, en la compra en los productos del área de salud y belleza frente a los productos de la papelería. Para lo cual vamos a usar SAS Enterprise Miner.


Los metadatos son importados desde las librerías propias del programa, estos datos se denominarán como de rol transaccional.


Cuando se le da un rol de tipo transaccional, se le dice al programa que los datos los lea, debe ser en un orden especifico y con un tipo de agrupación que para nuestro la variable Cluster va a ser el ID. 
Para lo cual es necesario como mínimo que la configuración del nodo de asociación tenga los siguientes parámetros:



Finalmente  el diagrama  importa la data y se conecta el modelo a asociación tal como se muestra en la siguiente gráfica:


El nodo de asociación permite realizar diferentes cambios en cuanto a la configuración de del nodo, esto con el fin de depurar posibles relaciones obvias, o por el contrario si se quiere examinar a una mayor profundidad las reglas de asociación. Entre las cuales cabe mencionar que se puede las parametrizaciones:

  • Configurar la cantidad máxima de productos o elementos a asociar.
  • Niveles mínimos de confianza.
  • Cantidad de reglas a mostrar.
  • Criterios de clasificación de las reglas.



Al ejecutar los dos nodos, salen los siguientes resultados.



En particular vamos a mirar  el ranking de cada una de las reglas, esto se hace por que esta tabla contiene el estadístico de elevación o Lift, el cual realmente me muestra la fuerza de asociación y causalidad de las reglas.


Soporte: Se puede interpretar como la probabilidad de que se "vendan conjuntamente" los productos sobre el total de transacciones.

Confianza:   La confianza se puede mirar como una probabilidad condicional donde se analiza la aparición de un evento dada una condición.

Confianza Esperada: Probabilidad que se tenga el producto de la derecha de la regla.

Lift:  Un valor mayor a uno indica que la regla aparece un numero superior a lo esperado, bajo las condiciones de independencia, por ende se puede plantear que existe una relación mas de lo normal entre un conjunto de producto.

Teniendo en cuenta lo anterior podríamos decir que para la primera regla:

Perfume >> Cepillo de dientes

Lift: Es 3.6 veces mas probable de que una persona que habiendo llevado un perfume lleve en su compra un cepillo de dientes, frente a alguien que  lleve solo  cepillo de dientes.

Confianza: Del total de transacciones donde se lleva Perfume el 24.26% lleva también Crema dental.

Soporte: Del total de transacciones que compran conjuntamente  perfume y cepillo de dientes solo esta combinación tiene una participación del 2.6%.

Otro gráfico interesante a analizar es el diagrama de asociación, el cual nos representa gráficamente como es la interacción entre productos.



Comentarios

Entradas populares de este blog

Importación de un archivo csv utilizando SAS Vs R Vs Python

E n el siguiente articulo, se realizara una comparación entre tres software, en cuanto a la velocidad, cantidad de caracteres del código, lógica y entendimiento de los lenguajes. Acá los resultados: El Archivo Se trata de un documento .CSV, llamado CaseStudy1. Y son datos de empleados de una compañía, la tabla contiene 8 variables y 424 registros. Figura 1: Tabla CaseStudy1 Importación SAS: Para importar el archivo usando SAS, es necesario clarificar que se esta trabajando desde un servidor llamado  On Demand For Academic, la cual es una interfaz de mi PC hacia SAS que se conecta vía web a un servidor a estados unidos. Abrir la version web de SAS que es el SAS Studio. Introducir el usuario y contraseña.  Figura 2: Credenciales Le damos clic en la area del SAS Studio, la cual nos va a llevar a version web de SAS. Como no es posible leer los archivos directamente desde mi equipo es necesario realizar un puente para poder importar los datos, para lo cual es

Un Gráfico de pastel para elecciones presidenciales 2010 en Colombia que no suma el 100%.

No se si este sumando mal pero a este grafico de pastel no le da el 100%; al parecer le falta un 8.4%. Y al parecer el 23.3% de Sanin ocupa más espacio en la torta que los demás candidatos. fuente: http://www.laopinion.com.co/noticias/index.php?option=com_content&task=view&id=347881&Itemid=31

Fácil y desde cero, Minería de datos. Aplicaciones casos reales. (Arboles)

Un banco quiere tener un modelo estadístico, en el cual permita medir el riesgo de realizar un préstamo hipotecario (pagos e impagos de la deuda), para poder cuantificar este riesgo se va a tener en cuenta una serie de variables que según el científico de datos puede llegar a ser relevantes.Para esto se selecciona una muestra representativa de la población de usuarios del banco. Los datos describen el comportamiento de cada cliente al corte de un periodo dado, de tal manera que se tendrá dentro de la muestra personas que están al día  o en mora con su crédito hipotecario. A continuación se realizará una descripción de las variables que quizás puedan influenciar en el resultado del modelo. En resumen, son variables que indican numero de obligaciones, en diferentes cortes de tiempo, cantidad de consultas a la centrales de riesgo, porcentajes de deudas, saldos de deudas, tiempos trascurridos desde el ultimo pago etc ... Siguiendo la metodología de minería de datos lo prime