Ir al contenido principal

Entradas

Mostrando entradas de 2014

Modelando en la minería de datos: Arboles de decisión

Antes de entrar al tema de arboles de decisión, se tratará de explicar el termino de modelo. Un modelo es la abstracción de una  realidad palpable,  representada por medio de algoritmos matemáticos y apoyada por potentes software informáticos, lo cual se ha convertido en una imperiosa necesidad para los diferentes sectores de análisis del mundo. El modelo estadístico pretende cumplir esto, por medio de una simple igualdad matemática, que en la mayoría de casos esta compuesta por una relación en donde interviene un error. A lo largo de la historia se han podido clasificar en tres grupos los modelos estadísticos. Modelos asociativos: Estos modelos pretenden identificar un orden de acontecimientos, que permitan describir a tiempo una cadena de sucesos, por ejemplo: ¿que serie de sucesos pasa para que un suscriptor cancele un servicio televisivo?. Primero llama, luego va personalmente a quejarse,  después manda una carta,... (¿?)...., por ultimo cancela. Estos modelos pe

Minería de Datos: Correlación de variables cuantitativas

En el próximo vídeo vamos a ver asociación de variables numéricas (Cuantitativas) en donde se aplicara el coeficiente de correlación de  Pearson, ANOVA y mapas de calor. El Coeficiente de Correlación  consiste en medir la fuerza de asociación lineal entre una variables c uantitativas ,  La asociación puede variar  entre entre -1 y 1, cuando el valor es negativa la relación es inversa por ejemplo, cuando el consumo del agua potable aumenta los casos de cólera disminuyen. el otro tipo de relación es cuando el coeficiente es cercano a uno,  por ejemplo cuando el precio del petroleo aumenta los precios de la gasolina también  lo hacen,  en cambio cuando  una asociación es cercana a 0 esto quiere decir que no tiene relación lineal.  

Inteligencia Predictiva!!, con la Minería de datos: Relacionando de Forma gráfica las categorías de las variables

Utilizando un Análisis de Malla, logramos asociar  características de una población de datos. En el siguiente vídeo se muestran de una forma sencilla y gráfica como se relacionan simultáneamente varias categorías de una población.

Mineria de datos: Pruebas de independencia para Tablas con más de dos variables

En siguiente vídeo se muestra como es la forma en la cual se debe de inferir correctamente la existencia de correlación entre más de dos variables.

Vídeo de interpretación de salida TABLAS DE CONTINGENCIA EN SPSS MODELER

Cuando trabajamos con tablas cruzadas y deseamos conocer la existencia de una relación entre las variables y no sabemos como hacerlo, en el siguiente vídeo se explica la forma correcta de leer los valores que salen de MODELER SPSS y así poder inferir correctamente sobre las variables que estamos cruzando.

Relación no es lo mismo que causalidad.

Un error que muchas veces se comerte  (puede ser de forma intencional )  con la información es confundir una correlación de variables con una causalidad directa entre ambas, durante un proceso de investigación casi siempre vamos a querer identificar el nivel de asociación de las variables y poderla cuantificar. Por ejemplo: El consumo de agua tiene una  relación directa  con la compra de vestidos de baño, pero ninguna es causalidad de la otra, dado que en época de verano el consumo de las dos variables aumenta. El precio de la energía eléctrica  esta relacionado  con mi edad, pero mi longevidad no es producto del precio del componente eléctrico, aunque  están relacionadas matemáticamente. La aplicación de una vacuna contra el papiloma humano con la aparición de síntomas alérgicos, 6 meses después en una pequeña población del sur de Bolívar (Colombia), ante este ultimo ejemplo se deben de examinar todos las variables que rodea a la población para dar un veredicto sobre las po

Vídeo de manejo de data mining

Para quienes trabajamos con la data mining ...Que es un procesamiento de datos, que se debe hacer cuando debemos de crear nuevas variables, como las debemos de crear ... algunas de estas inquietudes en el siguiente vídeo.

Procesamiento de la información en un proyecto de mineria de datos.

Simultáneamente cuando se esta identificando los datos anómalos, nos podemos dar cuenta que se necesita estructurar la base de datos, para que su lectura sea mucho mas eficiente, por ejemplo necesitaríamos segmentar aquellas registros atípicos ya identificados, clasificar las variables que cuentan unas características especiales, crear nuevos campos o registros, o cambiar el tipo de la variable y hacer transformaciones para que la información sea coherente. En este documento vamos a identificar los diferentes procedimientos que se pueden hacer para mejorar nuestra base de datos: Cambio de nombre en los campos:  Esta funcionalidad consiste en renombrar una variable o varios campos. El origen de hacer estas modificaciones es muy amplia, algunas de las causas son: que algunos programas de captura, solo soportan  8 caracteres, o que no existe espacio entre palabras del titulo, o que estén escritos de los encabezados estén en otro idioma.  También puede pasar que se este repitiendo

Introducción al SPSS Modeler. 4.4 - Nodo de identificación de atípicos

Buenas tardes les comparto un vídeo en donde se identifica de manera rápida aquellos puntos atípicos de una base de datos

Sobre de datos atípicos y anómalos en la información.

En el próximo ejercicio de minería de datos, vamos a identificar información que quizás nos parezca un tanto diferente, por ejemplo que existan ingresos extremos, ventas muy diferente a la media o mediana, utilizaciones del servicio muy cercanas a cero, estos datos son considerados como anómalos pero no necesariamente están malos, sin embargo l os datos atípicos pueden  ser un problema a hora de modelar mis datos .   Pero ante todo debemos debo claro que es dato anómalo o atípico,  ante lo cual existe mucha documentación estadística para definir estos puntos, pero en resumen y de una forma sencilla son un conjunto de información que se aleja de la mayoría de la población , o sea son valores cuyas características lo hacen muy diferente al resto del universo.  Puede pasar que un valor atípico sea totalmente valedero y ser producto de una circunstancias atípicas por ejemplo si se estuviera midiendo el caudal de un río, pero de un momento a otro se desate una creciente en una épo

Algunas consideraciones adicionales sobre los datos Anomalos.

La primera opción que se considera cuando se presentan valores anómalos es eliminarlos, pero esta practica es poco recomendable sin antes contextualizar la realidad del estudio, por ejemplo estos datos nos pueden estar mostrando interesantes comportamientos  que en ultimas pueden ser documentados. Si, no se encuentra alguna relación entre estos datos y el estudio, se recomienda lo siguiente: Omitir los registros que presente valores perdidos. Omitir las variables que tiene tiene exceso de valores perdidos. Forzar a convertir estos valores dentro del rango de no atipicidad este puede ser dentro de las +- 3 desviaciones estándar con respecto a la media o (Q1,Q2 ) +- 1.5* IQR.  Pronosticar los valores anómalos analizando la estructura y la secuencia de los registros y variables. Reemplazar los valores anómalos por registros valederos, siempre y cuando la cantidad a cambiar sea pequeña. Acá les comparto un vídeo en donde se convierten  los datos  a rango valido (Opción 3).

Que hacer cuando se tiene valores anómalos

Ya identificados los valores anómalos, existen diferentes métodos que permiten dar un tratamiento a la base de datos, en el siguiente vídeo se muestra la primera opción que es eliminar fácilmente  los registros que presenten datos atípicos o nulos.

Identificación de Valores atípicos, perdidos o nulos

Para cumplir los objetivos de un proyecto es muy importante tener definido los objetivos del estudio, los cuales deben estar alineados con la consecución de la información, cobrando relevancia la calidad  y el acceso de la data. En muchas ocasiones las mismas características que rodea a las bases de datos hacen que se pierdan y se cometan errores en los registros, desembocando en tener que identificar estas fallas, para ser  corregidas oportunamente, al tener una buena calidad de información vamos a tener una mayor precisión en el calculo de mis estadísticos, que a su vez va a dar como resultado un modelo mas útil al cumplimiento de los objetivos trazados inicialmente en el estudio.    No debemos sorprendernos al encontrar valores nulos, por ejemplo si medimos la variable salario en algunos campos probablemente vamos a identificar campos sin datos, lo importante es identificarlos, conocerlos y ver si existe alguna secuencia reiterativa de perdida de información, con esto ya identif

Introducción al SPSS Modeler. 3 Importación de Archivos

Les comparto otro vídeo sobre el manejo de SPSS MODELER, en donde se puede apreciar la forma en la cual se importa diferentes archivos tipo .XLS, TXT, y SAV.

Interacción de Iconos en Modeler SPSS

Les dejo otro archivo introductorio donde se puede ver como se realiza la manipulación de los iconos en el lienzo de SPSS MODELER.

Un video de ambientación del SPSS Modeler

Les comparto un vídeo en donde se muestra la interfaz de usuario del programa de minería de datos Modeler. en donde se muestra y se explica los menús las diferentes pestañas que la componen.

Data Mining Parte I

Con el paso de cada segundo, la cantidad de información crece de forma exponencial, por ejemplo, durante el tiempo que usted ha leído este articulo, varias personas  han llamado a una central telefónica a registrar, actualizar y dejar nueva información sobre sus transacciones, todo esto se suma a la gran montaña de información que se esta acumulando desde hace años  la cual va cambiando segundo a segundo. Este crecimiento  de la data es tan solo comparable con la expansión acelerada del universo. Ante este panorama un poco desalentador para las empresas, se enfrentan al reto de poder almacenar de forma eficiente los datos, para luego poderlos administrar y tomar decisiones acertadas sobre el negocio.  La parte de Hardware y Software empiezan a ser muy relevantes para tener un control efectivo de la data, tener uno o varios servidores lo suficientemente robusto con la capacidad de almacenaje, procesamiento y eficiencia se convierte en un pilar fundamental a la hora de manejar dato

MIDIENDO SATISFACCIÓN Y RESOLUCIÓN SE DIVIDE Y SE GANA

Para  entender muchas cosas o solucionar problemas a veces debemos de segmentar, tal como lo hace el calculo diferencial cuando se tiene integrales de difícil solución, en estos casos se acude a la derivación por partes, esto mismo se realiza cuando hacemos análisis exploratorios o descriptivos con datos de difícil comprensión lo cual en ultimas nos dará gratas recompensas. Por eso quiero aprovechar para mostrarles un caso muy particular que me trate; donde queríamos medir la satisfacción del cliente y la solución que se le da a este, después de una capacitación a  los médicos que atienden a los usuarios.  Para lo cual implemente la técnica de análisis de correspondencias simples donde nos suministra un mapa de ubicación de los individuos de una ciudad dependiendo de las características de las variables. En el primer cuadro de la izquierda se segmento por quienes hicieron la capacitación y quienes no la realizaron, a primera vista NO SE VEN DIFERENCIAS, pero al hacer las iden

PROCESAMIENTO DE DATOS

Nosotros como investigadores en muchas ocasiones nos debemos de enfrentar a una gran cantidad de retos a la hora de la transformación de datos en información comprensible. Partiendo que mucha de nuestra información se encuentra localizada en  diferentes servidores, en bases de datos tipo Oracle, Microsoft SQL Server, RDBMS o los free como son PostgreSQL  o MySQL es necesario contar con un adecuado software que pueda  ordenar, crear, transformar, nuevas variables y llevar los análisis y gráficos a plataformas interactivas o a informes html  Cuando empezamos a ver los datos, uno de estos problemas presentados son la identificación y adaptación de las diferentes fuentes de información, igualmente está, la calidad de la Data, en donde veremos información corrupta, incompleta y hasta incomprensible, ante estos problemas la herramienta analítica se deberá adaptase y: Eliminar recalcular filas. Crear, transformar suprimir variables. Crear, renombrar, modificar bases d

LAS 8 ETAPAS PARA REALIZAR UNA INVESTIGACIÓN ESTADÍSTICA

Muchos profesionales de diferentes áreas se preguntan cuales son las etapas necesarias para implementar un apropiado estudio estadístico. El siguiente documento no pretende ser una guía estricta de los pasos necesarios para hacer un estudio, si no por el contrario es una guía sencilla y simple a la hora de hacer una investigación. 1. Definir la Problemática. Acá de define el porque es necesario realizar el análisis, lo cual es acompañado con la contextualización de los objetivos lo cual debe estar acompañado de cuales son las hipótesis que desean comprobar o rechazar paralelamente se podría plantear la estimación de los parámetros que se quiere llegar. Todo esto debe estar acompañado de un plan de presupuestos y el tiempo estimado para el cual se va a finalizar el estudio estadístico. 2. Limitación de la Población. En este paso se pretende dejar claro cual es la población objeto de estudio, sus limites y alcances, cabe anotar que es muy importante analizar la representabilidad d

códigos sencillos en SAS

CREACIÓN DE UN ARCHIVO DATA ARCHIVO; RUN ; CREACIÓN DE UN ARCHIVO MAS VARIABLES Y SE REALIZA OPERACIONES DATA PRIMER_ARCHIVO; INPUT ID $ EDAD ESTATURA PESO COEF; COEF=EDAD/PESO* 100 ; DATALINES ; 01 23 1.45 65 02 40 1.76 80 ; RUN ; PROC PRINT ; RUN ; CREAR  CALCULAR Y GUARDAR UN ARCHIVO SACANDO MEDIAS: DATA "C:\Users\USUARIO\Documents\SAS\PROGRAMAS\PRIMER_ARCHIVO" ; INPUT ID $ EDAD ESTATURA PESO COEF; COEF= ESTATURA/PESO* 100 ; DATALINES ; 01 23 1.45 65 02 40 1.76 80 03 18 1.67 70 05 45 1.76 69 ; RUN ; PROC MEANS ; RUN ;

El mundo financiero y la Estadística. (Teoría del Proceso Estocástico Browniano)

La metodología estocástica en el mundo financiero  fue propuesta por Case y Shiller (1989), la cual se fundamenta en retomar de forma consecutiva los precios cada vez que estos se transan en periodos de tiempo t , en donde el comportamiento de los precios se caracterizan como un proceso estocástico el cual postula que el cambio en el precio de las acciones es aleatorio e impredecible, entonces se propone utilizar  el método Browniano el cual es un caso particular del proceso estocástico Markov [1] con media cero y varianza uno por un periodo T. Un proceso estocástico es una familia de variables aleatorias definida sobre un espacio de probabilidad. Tendremos que X es una función de dos argumentos. Fijado w=w0, obtenemos una función determinista,El espacio de estados S de un proceso estocástico es el conjunto de todos los posibles valores que puede tomar dicho proceso. Para esclarecer el tema, se propone un ejemplo de proceso estocástico adaptado al mercado de acciones:   Sea