Ir al contenido principal

Sobre de datos atípicos y anómalos en la información.

En el próximo ejercicio de minería de datos, vamos a identificar información que quizás nos parezca un tanto diferente, por ejemplo que existan ingresos extremos, ventas muy diferente a la media o mediana, utilizaciones del servicio muy cercanas a cero, estos datos son considerados como anómalos pero no necesariamente están malos, sin embargo los datos atípicos pueden  ser un problema a hora de modelar mis datos.  

Pero ante todo debemos debo claro que es dato anómalo o atípico,  ante lo cual existe mucha documentación estadística para definir estos puntos, pero en resumen y de una forma sencilla son un conjunto de información que se aleja de la mayoría de la población, o sea son valores cuyas características lo hacen muy diferente al resto del universo. 
Puede pasar que un valor atípico sea totalmente valedero y ser producto de una circunstancias atípicas por ejemplo si se estuviera midiendo el caudal de un río, pero de un momento a otro se desate una creciente en una época de verano, se consideraría como un valor verídico pero que se sale de los históricos.

Otro caso que origina un valor atípico es un error en la recolección o procesamiento de la información esto suele suceder en muchos casos en los cuales se requiere cruzar bases de datos en donde la estructura de los archivos cambia constantemente creando valores anómalos, otra caso se presenta es durante la recolección de la información, por ejemplo un encuestador puede omitir o entender mal la información que esta recolectando, ante estos problemas que se presentan, es importante crear filtros que permitan identificar fácilmente este tipo de errores y puedan ser corregidos de forma oportuna.



En otras ocasiones los valores atípicos cobran gran relevancia para una empresa por que permiten romper paradigmas e identificar nuevas tendencias en los datos, por ejemplo si la empresa de telecomunicaciones identifica un grupo de clientes con alto consumo de Internet puede enfocar una investigación de mercados para identificar las causas de este comportamiento para poder replicarlos en el resto de la población y así lograr que el consumo de Internet aumente.

Igualmente es imperiosamente necesario segmentar los datos para poder identificar grupos y no ir  a confundir con valores atípicos dentro de una misma población. Por ejemplo tememos unas ventas excesivamente altas pero al segmentarlos geográficamente vemos que estas altas ventas pertenecen a segmento de clientes empresariales, ante esto es necesario clasificar anticipadamente mi población y darle un tratamiento especial a cada grupo.


Cuando estamos segmentando es importante evitar tener categorías poco representativas o con una mínima cantidad de registros, esto es muy similar a la alegoría de construir un avión para trasportar una pulga, lo recomendable es ver en donde podemos re clasificar esta categoría  y volver a correr nuestro modelo.


Comentarios

Entradas populares de este blog

Importación de un archivo csv utilizando SAS Vs R Vs Python

E n el siguiente articulo, se realizara una comparación entre tres software, en cuanto a la velocidad, cantidad de caracteres del código, lógica y entendimiento de los lenguajes. Acá los resultados: El Archivo Se trata de un documento .CSV, llamado CaseStudy1. Y son datos de empleados de una compañía, la tabla contiene 8 variables y 424 registros. Figura 1: Tabla CaseStudy1 Importación SAS: Para importar el archivo usando SAS, es necesario clarificar que se esta trabajando desde un servidor llamado  On Demand For Academic, la cual es una interfaz de mi PC hacia SAS que se conecta vía web a un servidor a estados unidos. Abrir la version web de SAS que es el SAS Studio. Introducir el usuario y contraseña.  Figura 2: Credenciales Le damos clic en la area del SAS Studio, la cual nos va a llevar a version web de SAS. Como no es posible leer los archivos directamente desde mi equipo es necesario realizar un puente para poder importar los datos, para l...

Un Gráfico de pastel para elecciones presidenciales 2010 en Colombia que no suma el 100%.

No se si este sumando mal pero a este grafico de pastel no le da el 100%; al parecer le falta un 8.4%. Y al parecer el 23.3% de Sanin ocupa más espacio en la torta que los demás candidatos. fuente: http://www.laopinion.com.co/noticias/index.php?option=com_content&task=view&id=347881&Itemid=31

Fácil y desde cero, Minería de datos. Aplicaciones casos reales. (Arboles)

Un banco quiere tener un modelo estadístico, en el cual permita medir el riesgo de realizar un préstamo hipotecario (pagos e impagos de la deuda), para poder cuantificar este riesgo se va a tener en cuenta una serie de variables que según el científico de datos puede llegar a ser relevantes.Para esto se selecciona una muestra representativa de la población de usuarios del banco. Los datos describen el comportamiento de cada cliente al corte de un periodo dado, de tal manera que se tendrá dentro de la muestra personas que están al día  o en mora con su crédito hipotecario. A continuación se realizará una descripción de las variables que quizás puedan influenciar en el resultado del modelo. En resumen, son variables que indican numero de obligaciones, en diferentes cortes de tiempo, cantidad de consultas a la centrales de riesgo, porcentajes de deudas, saldos de deudas, tiempos trascurridos desde el ultimo pago etc ... Siguiendo la metodología de minería de datos lo p...