Ir al contenido principal

Procesamiento de la información en un proyecto de mineria de datos.

Simultáneamente cuando se esta identificando los datos anómalos, nos podemos dar cuenta que se necesita estructurar la base de datos, para que su lectura sea mucho mas eficiente, por ejemplo necesitaríamos segmentar aquellas registros atípicos ya identificados, clasificar las variables que cuentan unas características especiales, crear nuevos campos o registros, o cambiar el tipo de la variable y hacer transformaciones para que la información sea coherente. En este documento vamos a identificar los diferentes procedimientos que se pueden hacer para mejorar nuestra base de datos:

  • Cambio de nombre en los campos: Esta funcionalidad consiste en renombrar una variable o varios campos. El origen de hacer estas modificaciones es muy amplia, algunas de las causas son: que algunos programas de captura, solo soportan  8 caracteres, o que no existe espacio entre palabras del titulo, o que estén escritos de los encabezados estén en otro idioma.  También puede pasar que se este repitiendo  variables, seguidamente  puede suceder que queramos darle un mayor sentido explicativo al  titulo de nuestra variable y la cambiemos por un titulo mas acorde a nuestro estudio.  


  • Eliminar o no tener en cuenta campos: Este trabajo consiste en no tener cuenta aquellos campos que no aportan en el modelamiento de la información dado que su peso a la explicación de los datos no es relevante por ejemplo ID, los apellidos, los nombres de personas, y variables similares no aportan mucho a mi modelo por eso se recomienda eliminarlos del proceso de minería de datos. Igualmente esta funcionalidad de eliminación aplica cuando después de correr un modelo se identifica que algunas de las variables no tiene un peso estadisticamente significativo, por lo tanto se siguiere eliminarlo. Entre menos variables tengamos y nuestro modelo sea mas explicativo mejor serán nuestros resultados, es algo similar al principio de parsimonia donde se espera elegir la menor y mejor cantidad de componentes posibles que puedan explicar el modelo. 


  • Reodenar Campos y registros: En algunas ocasiones es necesario visualizar mas fácilmente nuestras variables objetivo, igual puede ocurrir con los registros, en donde puede pasar que sea necesario que nuestra base de datos tenga un orden especifico que permita ver mas fácilmente la estructura de la data.

  • Creación de nuevas variables: También puede suceder que debemos de crear nuevas variables a partir de de unas existentes, por ejemplo sumas totales de deudas,  identificar edades superiores a los 18 años, Transformar una variable cualitativa en una cuantitativa, o crear una nueva variable a partir de una formulación condicional donde si se cumple la lógica se genere una nueva categoría, de lo contrario se crea otra categórica diferente de tal manera se llegue a un campo dicotomico. También puedo agrupar categorías asignando un titulo a un grupo, con el objetivo de reducir mis variables cuantitativas. O tener que crear nuevas variables después de correr el modelo para lograrlos ajustar a los supuestos de un modelo.


Comentarios

Entradas populares de este blog

Importación de un archivo csv utilizando SAS Vs R Vs Python

E n el siguiente articulo, se realizara una comparación entre tres software, en cuanto a la velocidad, cantidad de caracteres del código, lógica y entendimiento de los lenguajes. Acá los resultados: El Archivo Se trata de un documento .CSV, llamado CaseStudy1. Y son datos de empleados de una compañía, la tabla contiene 8 variables y 424 registros. Figura 1: Tabla CaseStudy1 Importación SAS: Para importar el archivo usando SAS, es necesario clarificar que se esta trabajando desde un servidor llamado  On Demand For Academic, la cual es una interfaz de mi PC hacia SAS que se conecta vía web a un servidor a estados unidos. Abrir la version web de SAS que es el SAS Studio. Introducir el usuario y contraseña.  Figura 2: Credenciales Le damos clic en la area del SAS Studio, la cual nos va a llevar a version web de SAS. Como no es posible leer los archivos directamente desde mi equipo es necesario realizar un puente para poder importar los datos, para l...

Un Gráfico de pastel para elecciones presidenciales 2010 en Colombia que no suma el 100%.

No se si este sumando mal pero a este grafico de pastel no le da el 100%; al parecer le falta un 8.4%. Y al parecer el 23.3% de Sanin ocupa más espacio en la torta que los demás candidatos. fuente: http://www.laopinion.com.co/noticias/index.php?option=com_content&task=view&id=347881&Itemid=31

Fácil y desde cero, Minería de datos. Aplicaciones casos reales. (Arboles)

Un banco quiere tener un modelo estadístico, en el cual permita medir el riesgo de realizar un préstamo hipotecario (pagos e impagos de la deuda), para poder cuantificar este riesgo se va a tener en cuenta una serie de variables que según el científico de datos puede llegar a ser relevantes.Para esto se selecciona una muestra representativa de la población de usuarios del banco. Los datos describen el comportamiento de cada cliente al corte de un periodo dado, de tal manera que se tendrá dentro de la muestra personas que están al día  o en mora con su crédito hipotecario. A continuación se realizará una descripción de las variables que quizás puedan influenciar en el resultado del modelo. En resumen, son variables que indican numero de obligaciones, en diferentes cortes de tiempo, cantidad de consultas a la centrales de riesgo, porcentajes de deudas, saldos de deudas, tiempos trascurridos desde el ultimo pago etc ... Siguiendo la metodología de minería de datos lo p...