Ir al contenido principal

Identificación de Valores atípicos, perdidos o nulos

Para cumplir los objetivos de un proyecto es muy importante tener definido los objetivos del estudio, los cuales deben estar alineados con la consecución de la información, cobrando relevancia la calidad  y el acceso de la data. En muchas ocasiones las mismas características que rodea a las bases de datos hacen que se pierdan y se cometan errores en los registros, desembocando en tener que identificar estas fallas, para ser  corregidas oportunamente, al tener una buena calidad de información vamos a tener una mayor precisión en el calculo de mis estadísticos, que a su vez va a dar como resultado un modelo mas útil al cumplimiento de los objetivos trazados inicialmente en el estudio.   
No debemos sorprendernos al encontrar valores nulos, por ejemplo si medimos la variable salario en algunos campos probablemente vamos a identificar campos sin datos, lo importante es identificarlos, conocerlos y ver si existe alguna secuencia reiterativa de perdida de información, con esto ya identificado me permitirá  utilizar una metodología mas acorde a las características de la variable que estamos analizando.
Acá les dejo un método en donde se identifica aquellos valores atípicos, perdidos o nulos.


Comentarios

Entradas populares de este blog

Items importantes para la construcción de Dashboard.

  A través de la elaboración de diversos reportes y del análisis de múltiples artículos que ofrecen recomendaciones sobre su construcción, he identificado una serie de pasos esenciales, los cuales se asemejan a los ingredientes de una receta para el éxito en la creación de dashboards. Definición de Roles Dependiendo del tamaño de la organización, algunos usuarios pueden cumplir más de un rol. En una organización más pequeña, una persona podría ser responsable de crear contenido y administrar el sistema. En organizaciones más grandes, puede haber departamentos enteros para cada Rol Para la elaboración de reportes efectivos, es fundamental iniciar con la definición de roles, asignando responsabilidades claras a cada miembro del equipo. Se recomienda la estandarización de colores y formatos, garantizando una apariencia uniforme en todos los gráficos y visualizaciones. Antes de comenzar, es crucial definir qué información se desea conocer y confirmar que se cuenta con los datos correct...

Un Gráfico de pastel para elecciones presidenciales 2010 en Colombia que no suma el 100%.

No se si este sumando mal pero a este grafico de pastel no le da el 100%; al parecer le falta un 8.4%. Y al parecer el 23.3% de Sanin ocupa más espacio en la torta que los demás candidatos. fuente: http://www.laopinion.com.co/noticias/index.php?option=com_content&task=view&id=347881&Itemid=31

Fácil y desde cero, Minería de datos. Aplicaciones casos reales. (Arboles)

Un banco quiere tener un modelo estadístico, en el cual permita medir el riesgo de realizar un préstamo hipotecario (pagos e impagos de la deuda), para poder cuantificar este riesgo se va a tener en cuenta una serie de variables que según el científico de datos puede llegar a ser relevantes.Para esto se selecciona una muestra representativa de la población de usuarios del banco. Los datos describen el comportamiento de cada cliente al corte de un periodo dado, de tal manera que se tendrá dentro de la muestra personas que están al día  o en mora con su crédito hipotecario. A continuación se realizará una descripción de las variables que quizás puedan influenciar en el resultado del modelo. En resumen, son variables que indican numero de obligaciones, en diferentes cortes de tiempo, cantidad de consultas a la centrales de riesgo, porcentajes de deudas, saldos de deudas, tiempos trascurridos desde el ultimo pago etc ... Siguiendo la metodología de minería de datos lo p...