Ir al contenido principal

Algunas consideraciones adicionales sobre los datos Anomalos.

La primera opción que se considera cuando se presentan valores anómalos es eliminarlos, pero esta practica es poco recomendable sin antes contextualizar la realidad del estudio, por ejemplo estos datos nos pueden estar mostrando interesantes comportamientos  que en ultimas pueden ser documentados. Si, no se encuentra alguna relación entre estos datos y el estudio, se recomienda lo siguiente:

  1. Omitir los registros que presente valores perdidos.
  2. Omitir las variables que tiene tiene exceso de valores perdidos.
  3. Forzar a convertir estos valores dentro del rango de no atipicidad este puede ser dentro de las +- 3 desviaciones estándar con respecto a la media o (Q1,Q2 ) +- 1.5* IQR. 
  4. Pronosticar los valores anómalos analizando la estructura y la secuencia de los registros y variables.
  5. Reemplazar los valores anómalos por registros valederos, siempre y cuando la cantidad a cambiar sea pequeña.


Acá les comparto un vídeo en donde se convierten  los datos  a rango valido (Opción 3).



Comentarios

Entradas populares de este blog

Items importantes para la construcción de Dashboard.

  A través de la elaboración de diversos reportes y del análisis de múltiples artículos que ofrecen recomendaciones sobre su construcción, he identificado una serie de pasos esenciales, los cuales se asemejan a los ingredientes de una receta para el éxito en la creación de dashboards. Definición de Roles Dependiendo del tamaño de la organización, algunos usuarios pueden cumplir más de un rol. En una organización más pequeña, una persona podría ser responsable de crear contenido y administrar el sistema. En organizaciones más grandes, puede haber departamentos enteros para cada Rol Para la elaboración de reportes efectivos, es fundamental iniciar con la definición de roles, asignando responsabilidades claras a cada miembro del equipo. Se recomienda la estandarización de colores y formatos, garantizando una apariencia uniforme en todos los gráficos y visualizaciones. Antes de comenzar, es crucial definir qué información se desea conocer y confirmar que se cuenta con los datos correct...

Un Gráfico de pastel para elecciones presidenciales 2010 en Colombia que no suma el 100%.

No se si este sumando mal pero a este grafico de pastel no le da el 100%; al parecer le falta un 8.4%. Y al parecer el 23.3% de Sanin ocupa más espacio en la torta que los demás candidatos. fuente: http://www.laopinion.com.co/noticias/index.php?option=com_content&task=view&id=347881&Itemid=31

Análisis de Canasta

El Análisis de canasta es un una metodología  muy utilizada de minería de datos que permite describir asociaciones  entre diferentes items.  Este método permite que fácilmente que  por ejemplo que identifiquemos las asociaciones propias en un lanzamiento de un nuevo producto, y conocer cual producto juega como  rol  apalancador y cual de soporte, de tal manera que permita de una mejor forma describir la causalidad entre productos a analizar.  Para entender un poco mas este concepto vamos a poner el siguiente ejemplo: En un día tenemos 5 transacciones en donde por cada compra una tenemos 3 productos: De donde se pueden desprender unas relaciones entre productos a los cuales se les puede llamar reglas y unas probabilidades llamadas soporte y confianza. Soporte : Se puede interpretar como la probabilidad de que se "vendan conjuntamente" los productos sobre el total de transacciones. De tal manera que si:  A >>D el cual tien...