Ir al contenido principal

Modelando en la minería de datos: Arboles de decisión

Antes de entrar al tema de arboles de decisión, se tratará de explicar el termino de modelo.

Un modelo es la abstracción de una realidad palpable, representada por medio de algoritmos matemáticos y apoyada por potentes software informáticos, lo cual se ha convertido en una imperiosa necesidad para los diferentes sectores de análisis del mundo.


El modelo estadístico pretende cumplir esto, por medio de una simple igualdad matemática, que en la mayoría de casos esta compuesta por una relación en donde interviene un error.

A lo largo de la historia se han podido clasificar en tres grupos los modelos estadísticos.
  • Modelos asociativos: Estos modelos pretenden identificar un orden de acontecimientos, que permitan describir a tiempo una cadena de sucesos, por ejemplo: ¿que serie de sucesos pasa para que un suscriptor cancele un servicio televisivo?.
    • Primero llama, luego va personalmente a quejarse,  después manda una carta,... (¿?)...., por ultimo cancela. Estos modelos permiten clarificar y resolver el orden de importancia de los eventos que suceden para que se de un resultado de deserción.

  • Modelos de agrupación: Identifica patrones que permiten agrupar variables o registros en grupos homogéneos dentro de si y heterogéneos entre los conjuntos de datos. Este tipo de modelos es utilizado bastante en el área de mercadeo;  lo primero es  identificar  las variables mas relevantes, que hacen que un grupo de cliente sea diferente a los demás, lo cual me permita segmentar y poder elaborar campañas especificas a grupo objetivo, teniendo en cuenta las características propias de mi población segmentada.

  • Modelos predictivos: Son modelos que permiten pronosticar a un futuro lo que va a pasar, teniendo en cuenta patrones y sucesos del pasado, un ejemplo son las series de tiempo.


La ecuación del modelo estadístico esta dividida en dos partes:
Variables Dependientes.
Variables Independientes.
La parte dependiente son todas las variables que conocemos y que en conjunto pretenden explicar  afectar o predecir, las variable(s) independientes. Ejemplo :
factores que inciden en el valor del precio del petróleo,
En tema de identificación y prevención de: RIESGO, FRAUDE, DESERCIÓN, CORRUPCIÓN, etc.  


      – Control de enfermedades.
      –Deserción de clientes.
      –Compra de Productos.

      –Crediticio.
      –Identificación de patrones delictivos.





por lo tanto los Arboles de decisión,  son la manera gráfica y analítica de clasificación jerárquica que nos permite tomar la mejor decisión desde un punto de vista probabilístico.
Sirven para:
Segmentar.
Predecir.
Ordenar.
Reducir variables.
Identificación de interacciones.
Fusión categorías.
Re categorización variables continuas.

•El Algoritmo utilizado es:
CHAID:  Técnica 1980. (CHisquared Automatic Interaction Detection).

debe de tener cantidades responsables de números de datos.   

Ventajas:
Permite clasificar jerárquica mente las variables que mas se relaciona con la variable dependiente.
La segunda técnica mas utilizada en la minería de datos.
Es una técnica flexible se puede utilizar variables cualitativas y cuantitativas.
Permite resumir fácilmente las correlaciones mas importantes.
Se aplica en casi todos los sectores.



Comentarios

Entradas populares de este blog

Importación de un archivo csv utilizando SAS Vs R Vs Python

E n el siguiente articulo, se realizara una comparación entre tres software, en cuanto a la velocidad, cantidad de caracteres del código, lógica y entendimiento de los lenguajes. Acá los resultados: El Archivo Se trata de un documento .CSV, llamado CaseStudy1. Y son datos de empleados de una compañía, la tabla contiene 8 variables y 424 registros. Figura 1: Tabla CaseStudy1 Importación SAS: Para importar el archivo usando SAS, es necesario clarificar que se esta trabajando desde un servidor llamado  On Demand For Academic, la cual es una interfaz de mi PC hacia SAS que se conecta vía web a un servidor a estados unidos. Abrir la version web de SAS que es el SAS Studio. Introducir el usuario y contraseña.  Figura 2: Credenciales Le damos clic en la area del SAS Studio, la cual nos va a llevar a version web de SAS. Como no es posible leer los archivos directamente desde mi equipo es necesario realizar un puente para poder importar los datos, para l...

Items importantes para la construcción de Dashboard.

  A través de la elaboración de diversos reportes y del análisis de múltiples artículos que ofrecen recomendaciones sobre su construcción, he identificado una serie de pasos esenciales, los cuales se asemejan a los ingredientes de una receta para el éxito en la creación de dashboards. Definición de Roles Dependiendo del tamaño de la organización, algunos usuarios pueden cumplir más de un rol. En una organización más pequeña, una persona podría ser responsable de crear contenido y administrar el sistema. En organizaciones más grandes, puede haber departamentos enteros para cada Rol Para la elaboración de reportes efectivos, es fundamental iniciar con la definición de roles, asignando responsabilidades claras a cada miembro del equipo. Se recomienda la estandarización de colores y formatos, garantizando una apariencia uniforme en todos los gráficos y visualizaciones. Antes de comenzar, es crucial definir qué información se desea conocer y confirmar que se cuenta con los datos correct...

DATOS DEL AUTOR DEL BLOG

Mi nombre, es Laureano Romero Velásquez soy Estadístico de la Universidad del Valle, esta foto es con el profesor Víctor Guerrero de la UNAM, México (derecha) durante el cursillo Estimación de tendencias de series de tiempo mediante mínimos cuadrados penalizados, en el First International Workshop on Applied Statistics, Universidad Santo Tomas Bogotá Colombia 2009. Este BLOG tendrá como objetivo ser una fuente de discusión de temas estadísticos y como estos influyen en nuestro entorno. Bienvenidos!!!