Ir al contenido principal

Entradas

Mostrando las entradas etiquetadas como distribución

Minería de Datos: Correlación de variables cuantitativas

En el próximo vídeo vamos a ver asociación de variables numéricas (Cuantitativas) en donde se aplicara el coeficiente de correlación de  Pearson, ANOVA y mapas de calor. El Coeficiente de Correlación  consiste en medir la fuerza de asociación lineal entre una variables c uantitativas ,  La asociación puede variar  entre entre -1 y 1, cuando el valor es negativa la relación es inversa por ejemplo, cuando el consumo del agua potable aumenta los casos de cólera disminuyen. el otro tipo de relación es cuando el coeficiente es cercano a uno,  por ejemplo cuando el precio del petroleo aumenta los precios de la gasolina también  lo hacen,  en cambio cuando  una asociación es cercana a 0 esto quiere decir que no tiene relación lineal.  

Identificación de Valores atípicos, perdidos o nulos

Para cumplir los objetivos de un proyecto es muy importante tener definido los objetivos del estudio, los cuales deben estar alineados con la consecución de la información, cobrando relevancia la calidad  y el acceso de la data. En muchas ocasiones las mismas características que rodea a las bases de datos hacen que se pierdan y se cometan errores en los registros, desembocando en tener que identificar estas fallas, para ser  corregidas oportunamente, al tener una buena calidad de información vamos a tener una mayor precisión en el calculo de mis estadísticos, que a su vez va a dar como resultado un modelo mas útil al cumplimiento de los objetivos trazados inicialmente en el estudio.    No debemos sorprendernos al encontrar valores nulos, por ejemplo si medimos la variable salario en algunos campos probablemente vamos a identificar campos sin datos, lo importante es identificarlos, conocerlos y ver si existe alguna secuencia reiterativa de perdida de inf...

Un índice Estadístico para la bolsa de valores

   Grafica 1.  Variaciones entre el IGVR y el IGBC año 2001 Base: 100 Fuente: Excel Grafica 2. Bandas de Bollinger, IGBC Agosto 2001 – Marzo 2007. Base 100     Grafica 3. Bandas de Bollinger, IGVR Agosto 2001 – Marzo 2007. Base 100 El mercado de las acciones de la Bolsa de Valores de Colombia presenta eventualmente cambios relevantes, sin embargo los indicadores necesarios para su medición no presentan este mismo desarrollo; las posibles razones por las que no hay un proceso paralelo entre los índices actuales y el mercado de acciones, se debe principalmente por la deficiencias de cobertura, falta de ponderación y una estructura no adecuada para fines de análisis. Actualmente, la BVC utiliza un índice complejo ponderado el cual se fundamenta en una metodología de canasta fija de acciones con lo que obtiene un indicador que modela el precio de mismas, tiene la desventaja que la cantidad de elementos que utiliza no varí...

EL FRAUDE CIENTIFICO UTILIZANDO ESTADÍSTICAS

Comparto con ustedes un articulo muy interesante el cual trata del fraude científico en una investigación  psicológica. http://historico.elpais.com.uy/101218/predit-536141/editorial/El-fraude-del-Dr-Cyril-Burt/ Cabe anotar  que este estudio se realizo utilizando métodos estadísticos, con el objetivo de demostrar la tesis falsa, de  la herencia en la inteligencia.

Una distribución Bimodal

Hola, hoy les presento una bella gráfica generada a partir  de las compras reales de unas 10.000 tiendas de la ciudad de Cali Colombia, cuya  distribución se asemeja mucho a una bimodal, en donde se puede evidenciar dos poblaciones, el primer segmento corresponde a clientes con compras menores a $ 200.000 pesos y son al rededor del  74% del universo y la otro con compras superiores a 200.000 pesos los cuales son el 26% del total de clientes.

Call Center, un punto de vista estadístico.

Hoy les escribire sobre una experiencia que he tenido con los Call Center y no es precisamente haciendo un reclamo. Estos puntos de recepción  se han convertido gracias a los avances tecnologicos en  grandes centros de acopio de información, permitiendole a las empresas disponer de las heramientas necesarias para conocer de primera fuente las inquietudes y las preferencias de sus clientes.  Al empezar a analizar y a modelar los tiempos de atención me encontre lo interesante y lo "bonito" de la distribución de los datos. Modelo Empirico de los tiempos de atención:   Se observa una caida casi asintotica, lo cual me transporta a mis clases de probabilidad en donde vi distribuciones muy simulares, entre las cuales esta la distrubución Exponencial.    Esta distribución se utiliza para el modelamiento de los tiempos de atención. El paso a seguir es comprobar si efectivamente los datos se adaptan al modelo teorico, en donde se utilizan diferentes pr...