Ir al contenido principal

Entradas

Mostrando las entradas etiquetadas como Puntos Atipicos

Procesamiento de la información en un proyecto de mineria de datos.

Simultáneamente cuando se esta identificando los datos anómalos, nos podemos dar cuenta que se necesita estructurar la base de datos, para que su lectura sea mucho mas eficiente, por ejemplo necesitaríamos segmentar aquellas registros atípicos ya identificados, clasificar las variables que cuentan unas características especiales, crear nuevos campos o registros, o cambiar el tipo de la variable y hacer transformaciones para que la información sea coherente. En este documento vamos a identificar los diferentes procedimientos que se pueden hacer para mejorar nuestra base de datos: Cambio de nombre en los campos:  Esta funcionalidad consiste en renombrar una variable o varios campos. El origen de hacer estas modificaciones es muy amplia, algunas de las causas son: que algunos programas de captura, solo soportan  8 caracteres, o que no existe espacio entre palabras del titulo, o que estén escritos de los encabezados estén en otro idioma.  También puede pasar que se es...

Sobre de datos atípicos y anómalos en la información.

En el próximo ejercicio de minería de datos, vamos a identificar información que quizás nos parezca un tanto diferente, por ejemplo que existan ingresos extremos, ventas muy diferente a la media o mediana, utilizaciones del servicio muy cercanas a cero, estos datos son considerados como anómalos pero no necesariamente están malos, sin embargo l os datos atípicos pueden  ser un problema a hora de modelar mis datos .   Pero ante todo debemos debo claro que es dato anómalo o atípico,  ante lo cual existe mucha documentación estadística para definir estos puntos, pero en resumen y de una forma sencilla son un conjunto de información que se aleja de la mayoría de la población , o sea son valores cuyas características lo hacen muy diferente al resto del universo.  Puede pasar que un valor atípico sea totalmente valedero y ser producto de una circunstancias atípicas por ejemplo si se estuviera midiendo el caudal de un río, pero de un momento a otro se desate una c...

Algunas consideraciones adicionales sobre los datos Anomalos.

La primera opción que se considera cuando se presentan valores anómalos es eliminarlos, pero esta practica es poco recomendable sin antes contextualizar la realidad del estudio, por ejemplo estos datos nos pueden estar mostrando interesantes comportamientos  que en ultimas pueden ser documentados. Si, no se encuentra alguna relación entre estos datos y el estudio, se recomienda lo siguiente: Omitir los registros que presente valores perdidos. Omitir las variables que tiene tiene exceso de valores perdidos. Forzar a convertir estos valores dentro del rango de no atipicidad este puede ser dentro de las +- 3 desviaciones estándar con respecto a la media o (Q1,Q2 ) +- 1.5* IQR.  Pronosticar los valores anómalos analizando la estructura y la secuencia de los registros y variables. Reemplazar los valores anómalos por registros valederos, siempre y cuando la cantidad a cambiar sea pequeña. Acá les comparto un vídeo en donde se convierten  los datos  a ran...

Identificación de Valores atípicos, perdidos o nulos

Para cumplir los objetivos de un proyecto es muy importante tener definido los objetivos del estudio, los cuales deben estar alineados con la consecución de la información, cobrando relevancia la calidad  y el acceso de la data. En muchas ocasiones las mismas características que rodea a las bases de datos hacen que se pierdan y se cometan errores en los registros, desembocando en tener que identificar estas fallas, para ser  corregidas oportunamente, al tener una buena calidad de información vamos a tener una mayor precisión en el calculo de mis estadísticos, que a su vez va a dar como resultado un modelo mas útil al cumplimiento de los objetivos trazados inicialmente en el estudio.    No debemos sorprendernos al encontrar valores nulos, por ejemplo si medimos la variable salario en algunos campos probablemente vamos a identificar campos sin datos, lo importante es identificarlos, conocerlos y ver si existe alguna secuencia reiterativa de perdida de inf...

Un poco de Estadística Descriptiva

De la ficción a la realidad hay mucho trecho, o de lo que se cree esta muy lejos de ser verdad, esto pasa en muchas ocasiones con muchos profesionales que desconocen la influencia que tiene una variabilidad en un conjunto de datos, conllevando a que se utilice pocos o ningún criterio estadístico en un análisis de datos. Para ello voy a traerles un ejemplo REAL  y CLARO  de una pésima, interpretación de la realidad.  Para contextualizar un poco el caso me permito decir, Colombia es un país de grandes desigualdades económicas donde gran parte de su población es pobre, cuyos habitantes se mueve en un comercio un poco informal, del cual se destaca las tiendas de barrios, que no son mas que una familia pobre que utiliza su casa para vender productos detrás de un mostrador. Según cifras de Nielsen existen al rededor de 250.000 establecimiento con estas características. En estos establecimientos se co...

Video del Profesor Roberto Behar

Les hablare sobre una conferencia que fue impartida en España por el profesor Roberto Behar el cual pertenece a la escuela de ingeniería industrial y estadística de la Universidad del Valle . En esta conferencia el profesor habla sobre paradigmas e ideas confusas que existente en algunos conceptos importantes de la estadística. El primer tema que trata, es la gran importancia que tiene la variabilidad en nuestro mundo cotidiano y que aveces sin darnos cuenta, la aplicamos para tomar decisiones. Habla también de un Paradigma existente, que la muestra tiene que ser el 10% de la población, un ejemplo muy bueno que utiliza el profesor es el de la sopa: Una cocinera para mirar si le echa mas sal o menos sal a la sopa,  no se toma el 10% de la sopa para saber si esta buena; con este ejemplo postulamos la importancia del concepto de homogeneidad. Otro ejemplo:  para conocer el tipo de sangre no es necesario que le saquen el 10% de la sangre;...