Ir al contenido principal

Análisis de Canasta

El Análisis de canasta es un una metodología  muy utilizada de minería de datos que permite describir asociaciones  entre diferentes items.  Este método permite que fácilmente que  por ejemplo que identifiquemos las asociaciones propias en un lanzamiento de un nuevo producto, y conocer cual producto juega como  rol  apalancador y cual de soporte, de tal manera que permita de una mejor forma describir la causalidad entre productos a analizar. 

Para entender un poco mas este concepto vamos a poner el siguiente ejemplo:

En un día tenemos 5 transacciones en donde por cada compra una tenemos 3 productos:

De donde se pueden desprender unas relaciones entre productos a los cuales se les puede llamar reglas y unas probabilidades llamadas soporte y confianza.

Soporte: Se puede interpretar como la probabilidad de que se "vendan conjuntamente" los productos sobre el total de transacciones. De tal manera que si: 
A >>D el cual tiene un soporte de 2/5, (Veces que aparece A y D en las transacciones / total de transacciones) se interpreta como que existe una probabilidad de 0.4 de que los productos A y D sean comprados simultáneamente durante un día.   

Confianza:   La confianza se puede mirar como una probabilidad condicional donde se analiza la aparición de un evento dada una condición. Por ejemplo:
C >>A El cual no da una confianza 2/4 (Veces que aparece C y A en las transacciones / Veces que aparece C en las transacciones) que es 0.5.  Entonces se puede decir que existe una probabilidad de un 0.5 de que ocurra que una persona que haya llevado C lleve también A. Quizás esta probabilidad me puede dar mas información en cuanto a relación existente entre productos, por que se tiene en cuenta la presencia de un evento que quiero cuantificar.


Otro tema importante a analizar es la existencia de Causalidad de un productos vs la presencia de otro. Por eso es importante calcular el Lift o medida de elevación.

para lo cual vamos a analizar la posible causalidad de dos productos:
Hipótesis
El tener Cuenta de Ahorros Causa que las personas adquieran una Cuenta Corriente.
 ¿ Será esto verdad?

Soporte:  Probabilidad que tengan cuenta de ahorros y cuenta corriente. 5000/10000 = 0.5.

Confianza: Probabilidad que tengan cuenta corriente habiendo adquirido cuenta de ahorros. 5000/6000= 0.83.

Confianza Esperada: Probabilidad que se tenga cuenta corriente. 8500/10000= 0.85.

 Acá evidentemente se observa que es mas probable que se tenga una cuenta corriente sin importar que se tenga una cuenta de ahorros. En este paso se puede comparar proporcionalmente ambas probabilidades. 

Lift =0.83/0.85  < 1

De tal manera que si da mayor a 1 se puede empezar a deducir que existe una posible causalidad. Pero en nuestro ejemplo el Lift da menor a 1, por ende posiblemente no existe evidencia suficiente para decir que las personas tienen cuenta corriente es por que se ha adquirido una cuenta de ahorros. 

Por otro lado si por ejemplo nos hubiera dado un Lift de 3, se podría decir es 3 veces mas probable que una persona que lleve una cuenta de corriente teniendo una cuenta de ahorros frente a una persona que lleve  por si sola una cuenta de corriente. 


De todas formas les anexo un video en donde explico estos conceptos un poco mas al detalle.




Comentarios

Entradas populares de este blog

Importación de un archivo csv utilizando SAS Vs R Vs Python

E n el siguiente articulo, se realizara una comparación entre tres software, en cuanto a la velocidad, cantidad de caracteres del código, lógica y entendimiento de los lenguajes. Acá los resultados: El Archivo Se trata de un documento .CSV, llamado CaseStudy1. Y son datos de empleados de una compañía, la tabla contiene 8 variables y 424 registros. Figura 1: Tabla CaseStudy1 Importación SAS: Para importar el archivo usando SAS, es necesario clarificar que se esta trabajando desde un servidor llamado  On Demand For Academic, la cual es una interfaz de mi PC hacia SAS que se conecta vía web a un servidor a estados unidos. Abrir la version web de SAS que es el SAS Studio. Introducir el usuario y contraseña.  Figura 2: Credenciales Le damos clic en la area del SAS Studio, la cual nos va a llevar a version web de SAS. Como no es posible leer los archivos directamente desde mi equipo es necesario realizar un puente para poder importar los datos, para lo cual es

Un Gráfico de pastel para elecciones presidenciales 2010 en Colombia que no suma el 100%.

No se si este sumando mal pero a este grafico de pastel no le da el 100%; al parecer le falta un 8.4%. Y al parecer el 23.3% de Sanin ocupa más espacio en la torta que los demás candidatos. fuente: http://www.laopinion.com.co/noticias/index.php?option=com_content&task=view&id=347881&Itemid=31

Fácil y desde cero, Minería de datos. Aplicaciones casos reales. (Arboles)

Un banco quiere tener un modelo estadístico, en el cual permita medir el riesgo de realizar un préstamo hipotecario (pagos e impagos de la deuda), para poder cuantificar este riesgo se va a tener en cuenta una serie de variables que según el científico de datos puede llegar a ser relevantes.Para esto se selecciona una muestra representativa de la población de usuarios del banco. Los datos describen el comportamiento de cada cliente al corte de un periodo dado, de tal manera que se tendrá dentro de la muestra personas que están al día  o en mora con su crédito hipotecario. A continuación se realizará una descripción de las variables que quizás puedan influenciar en el resultado del modelo. En resumen, son variables que indican numero de obligaciones, en diferentes cortes de tiempo, cantidad de consultas a la centrales de riesgo, porcentajes de deudas, saldos de deudas, tiempos trascurridos desde el ultimo pago etc ... Siguiendo la metodología de minería de datos lo prime