El Análisis de canasta es un una metodología muy utilizada de minería de datos que permite describir asociaciones entre diferentes items. Este método permite que fácilmente que por ejemplo que identifiquemos las asociaciones propias en un lanzamiento de un nuevo producto, y conocer cual producto juega como rol apalancador y cual de soporte, de tal manera que permita de una mejor forma describir la causalidad entre productos a analizar.
Para entender un poco mas este concepto vamos a poner el siguiente ejemplo:
En un día tenemos 5 transacciones en donde por cada compra una tenemos 3 productos:
De donde se pueden desprender unas relaciones entre productos a los cuales se les puede llamar reglas y unas probabilidades llamadas soporte y confianza.
Soporte: Se puede interpretar como la probabilidad de que se "vendan conjuntamente" los productos sobre el total de transacciones. De tal manera que si:
A >>D el cual tiene un soporte de 2/5, (Veces que aparece A y D en las transacciones / total de transacciones) se interpreta como que existe una probabilidad de 0.4 de que los productos A y D sean comprados simultáneamente durante un día.
Confianza: La confianza se puede mirar como una probabilidad condicional donde se analiza la aparición de un evento dada una condición. Por ejemplo:
C >>A El cual no da una confianza 2/4 (Veces que aparece C y A en las transacciones / Veces que aparece C en las transacciones) que es 0.5. Entonces se puede decir que existe una probabilidad de un 0.5 de que ocurra que una persona que haya llevado C lleve también A. Quizás esta probabilidad me puede dar mas información en cuanto a relación existente entre productos, por que se tiene en cuenta la presencia de un evento que quiero cuantificar.
para lo cual vamos a analizar la posible causalidad de dos productos:
Hipótesis
El tener Cuenta de Ahorros Causa que las personas adquieran una Cuenta Corriente.
¿ Será esto verdad?
Soporte: Probabilidad que tengan cuenta de ahorros y cuenta corriente. 5000/10000 = 0.5.
Confianza: Probabilidad que tengan cuenta corriente habiendo adquirido cuenta de ahorros. 5000/6000= 0.83.
Confianza Esperada: Probabilidad que se tenga cuenta corriente. 8500/10000= 0.85.
Acá evidentemente se observa que es mas probable que se tenga una cuenta corriente sin importar que se tenga una cuenta de ahorros. En este paso se puede comparar proporcionalmente ambas probabilidades.
Lift =0.83/0.85 < 1
De tal manera que si da mayor a 1 se puede empezar a deducir que existe una posible causalidad. Pero en nuestro ejemplo el Lift da menor a 1, por ende posiblemente no existe evidencia suficiente para decir que las personas tienen cuenta corriente es por que se ha adquirido una cuenta de ahorros.
Por otro lado si por ejemplo nos hubiera dado un Lift de 3, se podría decir es 3 veces mas probable que una persona que lleve una cuenta de corriente teniendo una cuenta de ahorros frente a una persona que lleve por si sola una cuenta de corriente.
De todas formas les anexo un video en donde explico estos conceptos un poco mas al detalle.
Comentarios