Ir al contenido principal

Data Mining Parte I

Con el paso de cada segundo, la cantidad de información crece de forma exponencial, por ejemplo, durante el tiempo que usted ha leído este articulo, varias personas  han llamado a una central telefónica a registrar, actualizar y dejar nueva información sobre sus transacciones, todo esto se suma a la gran montaña de información que se esta acumulando desde hace años  la cual va cambiando segundo a segundo. Este crecimiento  de la data es tan solo comparable con la expansión acelerada del universo. Ante este panorama un poco desalentador para las empresas, se enfrentan al reto de poder almacenar de forma eficiente los datos, para luego poderlos administrar y tomar decisiones acertadas sobre el negocio. 

La parte de Hardware y Software empiezan a ser muy relevantes para tener un control efectivo de la data, tener uno o varios servidores lo suficientemente robusto con la capacidad de almacenaje, procesamiento y eficiencia se convierte en un pilar fundamental a la hora de manejar datos; esto debe ir acompañando de excelentes programas que permita extraer, clasificar, modelar la información realmente importante, que permita hacer la diferencia entre un antes y un después  con poca información, esto nos lleva al concepto de  data niminig  lo cual se asemeja a la extracción de oro, que para obtener un gramo del importante metal se debe extraer varias toneladas. para tener buenos resultados se recomienda seguir los siguientes pasos, los cuales no pretenden ser una receta pero si ser una guía.

  1. Disponibilidad y accesibilidad de la información.
  2. Identificar la cantidad de datos basura que tenemos los cuales pueden estar sesgando nuestra información.
  3. Cantidad suficiente de datos  correctos que permitan un  análisis de estos.
  4. Se debe contar con expertos familarizados con los datos de tal manera que ellos nos permitan traducir y conocer la funcionalidad de muchas variables.
En el siguiente articulo les estaré escribiendo mas sobre Data Mining .

Comentarios

Entradas populares de este blog

Importación de un archivo csv utilizando SAS Vs R Vs Python

E n el siguiente articulo, se realizara una comparación entre tres software, en cuanto a la velocidad, cantidad de caracteres del código, lógica y entendimiento de los lenguajes. Acá los resultados: El Archivo Se trata de un documento .CSV, llamado CaseStudy1. Y son datos de empleados de una compañía, la tabla contiene 8 variables y 424 registros. Figura 1: Tabla CaseStudy1 Importación SAS: Para importar el archivo usando SAS, es necesario clarificar que se esta trabajando desde un servidor llamado  On Demand For Academic, la cual es una interfaz de mi PC hacia SAS que se conecta vía web a un servidor a estados unidos. Abrir la version web de SAS que es el SAS Studio. Introducir el usuario y contraseña.  Figura 2: Credenciales Le damos clic en la area del SAS Studio, la cual nos va a llevar a version web de SAS. Como no es posible leer los archivos directamente desde mi equipo es necesario realizar un puente para poder importar los datos, para lo cual es

Un Gráfico de pastel para elecciones presidenciales 2010 en Colombia que no suma el 100%.

No se si este sumando mal pero a este grafico de pastel no le da el 100%; al parecer le falta un 8.4%. Y al parecer el 23.3% de Sanin ocupa más espacio en la torta que los demás candidatos. fuente: http://www.laopinion.com.co/noticias/index.php?option=com_content&task=view&id=347881&Itemid=31

Análisis de Canasta

El Análisis de canasta es un una metodología  muy utilizada de minería de datos que permite describir asociaciones  entre diferentes items.  Este método permite que fácilmente que  por ejemplo que identifiquemos las asociaciones propias en un lanzamiento de un nuevo producto, y conocer cual producto juega como  rol  apalancador y cual de soporte, de tal manera que permita de una mejor forma describir la causalidad entre productos a analizar.  Para entender un poco mas este concepto vamos a poner el siguiente ejemplo: En un día tenemos 5 transacciones en donde por cada compra una tenemos 3 productos: De donde se pueden desprender unas relaciones entre productos a los cuales se les puede llamar reglas y unas probabilidades llamadas soporte y confianza. Soporte : Se puede interpretar como la probabilidad de que se "vendan conjuntamente" los productos sobre el total de transacciones. De tal manera que si:  A >>D el cual tiene un soporte de 2/5 , (Veces