Ir al contenido principal

Entradas

Algunos Consejos para darle orden a sus proyectos en SAS Enterprise Guide

¿Cual es la mejor manera para trabajar con proyectos de SAS Enterprise Guide ?. No hay una formula mágica, pero si les puedo dar varios consejos para que todos saquen el mejor provecho de sus proyectos. Consejos: Haga uso del árbol para darle una organización a su proyecto, de tal manera que su trabajo tenga un orden lógico de ejecución. Asigne nombres acordes y concisos a cada uno de los procesos de flujos y a los objetos se que utilizan dentro de cada proyecto, incluyendo tareas, consultas, programas, etc... Renombre adecuadamente los data set de salidas de cada una de las tareas. Las tareas o programas no deben estar sueltas o a la deriva, se recomienda que su pertenencia este asociada a un flujo de proceso. Utilice textos para documentar filtros, consultas o modificaciones importantes que se le hacen a los datos. Desactive el auto arrastre cuando su flujo crezca demasiado, esto con el fin de facilitar el uso comprensión y personalización de sus proyectos. H...

A veces una imagen vale mas que varios estadísticos.

Que pasaría si tengo cuatro modelos con los mismos parámetros, pero  muy diferentes los graficos de  dispersion  Anscombe (1973) En donde se debe de mirar para cada caso los diferentes supuestos del modelo, de cierta forma esto nos permite reflexionar que no siempre se pueden tomar decisiones sin un sustento gráfico.

Modelando en la minería de datos: Arboles de decisión

Antes de entrar al tema de arboles de decisión, se tratará de explicar el termino de modelo. Un modelo es la abstracción de una  realidad palpable,  representada por medio de algoritmos matemáticos y apoyada por potentes software informáticos, lo cual se ha convertido en una imperiosa necesidad para los diferentes sectores de análisis del mundo. El modelo estadístico pretende cumplir esto, por medio de una simple igualdad matemática, que en la mayoría de casos esta compuesta por una relación en donde interviene un error. A lo largo de la historia se han podido clasificar en tres grupos los modelos estadísticos. Modelos asociativos: Estos modelos pretenden identificar un orden de acontecimientos, que permitan describir a tiempo una cadena de sucesos, por ejemplo: ¿que serie de sucesos pasa para que un suscriptor cancele un servicio televisivo?. Primero llama, luego va personalmente a quejarse,  después manda una carta,... (¿?)...., por ultimo cancela. Es...

Minería de Datos: Correlación de variables cuantitativas

En el próximo vídeo vamos a ver asociación de variables numéricas (Cuantitativas) en donde se aplicara el coeficiente de correlación de  Pearson, ANOVA y mapas de calor. El Coeficiente de Correlación  consiste en medir la fuerza de asociación lineal entre una variables c uantitativas ,  La asociación puede variar  entre entre -1 y 1, cuando el valor es negativa la relación es inversa por ejemplo, cuando el consumo del agua potable aumenta los casos de cólera disminuyen. el otro tipo de relación es cuando el coeficiente es cercano a uno,  por ejemplo cuando el precio del petroleo aumenta los precios de la gasolina también  lo hacen,  en cambio cuando  una asociación es cercana a 0 esto quiere decir que no tiene relación lineal.  

Inteligencia Predictiva!!, con la Minería de datos: Relacionando de Forma gráfica las categorías de las variables

Utilizando un Análisis de Malla, logramos asociar  características de una población de datos. En el siguiente vídeo se muestran de una forma sencilla y gráfica como se relacionan simultáneamente varias categorías de una población.

Mineria de datos: Pruebas de independencia para Tablas con más de dos variables

En siguiente vídeo se muestra como es la forma en la cual se debe de inferir correctamente la existencia de correlación entre más de dos variables.

Vídeo de interpretación de salida TABLAS DE CONTINGENCIA EN SPSS MODELER

Cuando trabajamos con tablas cruzadas y deseamos conocer la existencia de una relación entre las variables y no sabemos como hacerlo, en el siguiente vídeo se explica la forma correcta de leer los valores que salen de MODELER SPSS y así poder inferir correctamente sobre las variables que estamos cruzando.

Relación no es lo mismo que causalidad.

Un error que muchas veces se comerte  (puede ser de forma intencional )  con la información es confundir una correlación de variables con una causalidad directa entre ambas, durante un proceso de investigación casi siempre vamos a querer identificar el nivel de asociación de las variables y poderla cuantificar. Por ejemplo: El consumo de agua tiene una  relación directa  con la compra de vestidos de baño, pero ninguna es causalidad de la otra, dado que en época de verano el consumo de las dos variables aumenta. El precio de la energía eléctrica  esta relacionado  con mi edad, pero mi longevidad no es producto del precio del componente eléctrico, aunque  están relacionadas matemáticamente. La aplicación de una vacuna contra el papiloma humano con la aparición de síntomas alérgicos, 6 meses después en una pequeña población del sur de Bolívar (Colombia), ante este ultimo ejemplo se deben de examinar todos las variables que rodea a la población ...

Vídeo de manejo de data mining

Para quienes trabajamos con la data mining ...Que es un procesamiento de datos, que se debe hacer cuando debemos de crear nuevas variables, como las debemos de crear ... algunas de estas inquietudes en el siguiente vídeo.

Procesamiento de la información en un proyecto de mineria de datos.

Simultáneamente cuando se esta identificando los datos anómalos, nos podemos dar cuenta que se necesita estructurar la base de datos, para que su lectura sea mucho mas eficiente, por ejemplo necesitaríamos segmentar aquellas registros atípicos ya identificados, clasificar las variables que cuentan unas características especiales, crear nuevos campos o registros, o cambiar el tipo de la variable y hacer transformaciones para que la información sea coherente. En este documento vamos a identificar los diferentes procedimientos que se pueden hacer para mejorar nuestra base de datos: Cambio de nombre en los campos:  Esta funcionalidad consiste en renombrar una variable o varios campos. El origen de hacer estas modificaciones es muy amplia, algunas de las causas son: que algunos programas de captura, solo soportan  8 caracteres, o que no existe espacio entre palabras del titulo, o que estén escritos de los encabezados estén en otro idioma.  También puede pasar que se es...

Introducción al SPSS Modeler. 4.4 - Nodo de identificación de atípicos

Buenas tardes les comparto un vídeo en donde se identifica de manera rápida aquellos puntos atípicos de una base de datos

Sobre de datos atípicos y anómalos en la información.

En el próximo ejercicio de minería de datos, vamos a identificar información que quizás nos parezca un tanto diferente, por ejemplo que existan ingresos extremos, ventas muy diferente a la media o mediana, utilizaciones del servicio muy cercanas a cero, estos datos son considerados como anómalos pero no necesariamente están malos, sin embargo l os datos atípicos pueden  ser un problema a hora de modelar mis datos .   Pero ante todo debemos debo claro que es dato anómalo o atípico,  ante lo cual existe mucha documentación estadística para definir estos puntos, pero en resumen y de una forma sencilla son un conjunto de información que se aleja de la mayoría de la población , o sea son valores cuyas características lo hacen muy diferente al resto del universo.  Puede pasar que un valor atípico sea totalmente valedero y ser producto de una circunstancias atípicas por ejemplo si se estuviera midiendo el caudal de un río, pero de un momento a otro se desate una c...

Algunas consideraciones adicionales sobre los datos Anomalos.

La primera opción que se considera cuando se presentan valores anómalos es eliminarlos, pero esta practica es poco recomendable sin antes contextualizar la realidad del estudio, por ejemplo estos datos nos pueden estar mostrando interesantes comportamientos  que en ultimas pueden ser documentados. Si, no se encuentra alguna relación entre estos datos y el estudio, se recomienda lo siguiente: Omitir los registros que presente valores perdidos. Omitir las variables que tiene tiene exceso de valores perdidos. Forzar a convertir estos valores dentro del rango de no atipicidad este puede ser dentro de las +- 3 desviaciones estándar con respecto a la media o (Q1,Q2 ) +- 1.5* IQR.  Pronosticar los valores anómalos analizando la estructura y la secuencia de los registros y variables. Reemplazar los valores anómalos por registros valederos, siempre y cuando la cantidad a cambiar sea pequeña. Acá les comparto un vídeo en donde se convierten  los datos  a ran...

Que hacer cuando se tiene valores anómalos

Ya identificados los valores anómalos, existen diferentes métodos que permiten dar un tratamiento a la base de datos, en el siguiente vídeo se muestra la primera opción que es eliminar fácilmente  los registros que presenten datos atípicos o nulos.

Identificación de Valores atípicos, perdidos o nulos

Para cumplir los objetivos de un proyecto es muy importante tener definido los objetivos del estudio, los cuales deben estar alineados con la consecución de la información, cobrando relevancia la calidad  y el acceso de la data. En muchas ocasiones las mismas características que rodea a las bases de datos hacen que se pierdan y se cometan errores en los registros, desembocando en tener que identificar estas fallas, para ser  corregidas oportunamente, al tener una buena calidad de información vamos a tener una mayor precisión en el calculo de mis estadísticos, que a su vez va a dar como resultado un modelo mas útil al cumplimiento de los objetivos trazados inicialmente en el estudio.    No debemos sorprendernos al encontrar valores nulos, por ejemplo si medimos la variable salario en algunos campos probablemente vamos a identificar campos sin datos, lo importante es identificarlos, conocerlos y ver si existe alguna secuencia reiterativa de perdida de inf...

Introducción al SPSS Modeler. 3 Importación de Archivos

Les comparto otro vídeo sobre el manejo de SPSS MODELER, en donde se puede apreciar la forma en la cual se importa diferentes archivos tipo .XLS, TXT, y SAV.

Interacción de Iconos en Modeler SPSS

Les dejo otro archivo introductorio donde se puede ver como se realiza la manipulación de los iconos en el lienzo de SPSS MODELER.

Un video de ambientación del SPSS Modeler

Les comparto un vídeo en donde se muestra la interfaz de usuario del programa de minería de datos Modeler. en donde se muestra y se explica los menús las diferentes pestañas que la componen.

Data Mining Parte I

Con el paso de cada segundo, la cantidad de información crece de forma exponencial, por ejemplo, durante el tiempo que usted ha leído este articulo, varias personas  han llamado a una central telefónica a registrar, actualizar y dejar nueva información sobre sus transacciones, todo esto se suma a la gran montaña de información que se esta acumulando desde hace años  la cual va cambiando segundo a segundo. Este crecimiento  de la data es tan solo comparable con la expansión acelerada del universo. Ante este panorama un poco desalentador para las empresas, se enfrentan al reto de poder almacenar de forma eficiente los datos, para luego poderlos administrar y tomar decisiones acertadas sobre el negocio.  La parte de Hardware y Software empiezan a ser muy relevantes para tener un control efectivo de la data, tener uno o varios servidores lo suficientemente robusto con la capacidad de almacenaje, procesamiento y eficiencia se convierte en un pilar fundamental a la h...

MIDIENDO SATISFACCIÓN Y RESOLUCIÓN SE DIVIDE Y SE GANA

Para  entender muchas cosas o solucionar problemas a veces debemos de segmentar, tal como lo hace el calculo diferencial cuando se tiene integrales de difícil solución, en estos casos se acude a la derivación por partes, esto mismo se realiza cuando hacemos análisis exploratorios o descriptivos con datos de difícil comprensión lo cual en ultimas nos dará gratas recompensas. Por eso quiero aprovechar para mostrarles un caso muy particular que me trate; donde queríamos medir la satisfacción del cliente y la solución que se le da a este, después de una capacitación a  los médicos que atienden a los usuarios.  Para lo cual implemente la técnica de análisis de correspondencias simples donde nos suministra un mapa de ubicación de los individuos de una ciudad dependiendo de las características de las variables. En el primer cuadro de la izquierda se segmento por quienes hicieron la capacitación y quienes no la realizaron, a primera vista NO SE VEN DIFERENCIAS, pero al ...