Ir al contenido principal

Entradas

Mostrando las entradas etiquetadas como Desviación Estandar

Minería de Datos: Correlación de variables cuantitativas

En el próximo vídeo vamos a ver asociación de variables numéricas (Cuantitativas) en donde se aplicara el coeficiente de correlación de  Pearson, ANOVA y mapas de calor. El Coeficiente de Correlación  consiste en medir la fuerza de asociación lineal entre una variables c uantitativas ,  La asociación puede variar  entre entre -1 y 1, cuando el valor es negativa la relación es inversa por ejemplo, cuando el consumo del agua potable aumenta los casos de cólera disminuyen. el otro tipo de relación es cuando el coeficiente es cercano a uno,  por ejemplo cuando el precio del petroleo aumenta los precios de la gasolina también  lo hacen,  en cambio cuando  una asociación es cercana a 0 esto quiere decir que no tiene relación lineal.  

Algunas consideraciones adicionales sobre los datos Anomalos.

La primera opción que se considera cuando se presentan valores anómalos es eliminarlos, pero esta practica es poco recomendable sin antes contextualizar la realidad del estudio, por ejemplo estos datos nos pueden estar mostrando interesantes comportamientos  que en ultimas pueden ser documentados. Si, no se encuentra alguna relación entre estos datos y el estudio, se recomienda lo siguiente: Omitir los registros que presente valores perdidos. Omitir las variables que tiene tiene exceso de valores perdidos. Forzar a convertir estos valores dentro del rango de no atipicidad este puede ser dentro de las +- 3 desviaciones estándar con respecto a la media o (Q1,Q2 ) +- 1.5* IQR.  Pronosticar los valores anómalos analizando la estructura y la secuencia de los registros y variables. Reemplazar los valores anómalos por registros valederos, siempre y cuando la cantidad a cambiar sea pequeña. Acá les comparto un vídeo en donde se convierten  los datos  a ran...

Que hacer cuando se tiene valores anómalos

Ya identificados los valores anómalos, existen diferentes métodos que permiten dar un tratamiento a la base de datos, en el siguiente vídeo se muestra la primera opción que es eliminar fácilmente  los registros que presenten datos atípicos o nulos.

Identificación de Valores atípicos, perdidos o nulos

Para cumplir los objetivos de un proyecto es muy importante tener definido los objetivos del estudio, los cuales deben estar alineados con la consecución de la información, cobrando relevancia la calidad  y el acceso de la data. En muchas ocasiones las mismas características que rodea a las bases de datos hacen que se pierdan y se cometan errores en los registros, desembocando en tener que identificar estas fallas, para ser  corregidas oportunamente, al tener una buena calidad de información vamos a tener una mayor precisión en el calculo de mis estadísticos, que a su vez va a dar como resultado un modelo mas útil al cumplimiento de los objetivos trazados inicialmente en el estudio.    No debemos sorprendernos al encontrar valores nulos, por ejemplo si medimos la variable salario en algunos campos probablemente vamos a identificar campos sin datos, lo importante es identificarlos, conocerlos y ver si existe alguna secuencia reiterativa de perdida de inf...

PROCESAMIENTO DE DATOS

Nosotros como investigadores en muchas ocasiones nos debemos de enfrentar a una gran cantidad de retos a la hora de la transformación de datos en información comprensible. Partiendo que mucha de nuestra información se encuentra localizada en  diferentes servidores, en bases de datos tipo Oracle, Microsoft SQL Server, RDBMS o los free como son PostgreSQL  o MySQL es necesario contar con un adecuado software que pueda  ordenar, crear, transformar, nuevas variables y llevar los análisis y gráficos a plataformas interactivas o a informes html  Cuando empezamos a ver los datos, uno de estos problemas presentados son la identificación y adaptación de las diferentes fuentes de información, igualmente está, la calidad de la Data, en donde veremos información corrupta, incompleta y hasta incomprensible, ante estos problemas la herramienta analítica se deberá adaptase y: Eliminar recalcular filas. Crear, transformar suprimir variables. Crear, reno...

Un índice Estadístico para la bolsa de valores

   Grafica 1.  Variaciones entre el IGVR y el IGBC año 2001 Base: 100 Fuente: Excel Grafica 2. Bandas de Bollinger, IGBC Agosto 2001 – Marzo 2007. Base 100     Grafica 3. Bandas de Bollinger, IGVR Agosto 2001 – Marzo 2007. Base 100 El mercado de las acciones de la Bolsa de Valores de Colombia presenta eventualmente cambios relevantes, sin embargo los indicadores necesarios para su medición no presentan este mismo desarrollo; las posibles razones por las que no hay un proceso paralelo entre los índices actuales y el mercado de acciones, se debe principalmente por la deficiencias de cobertura, falta de ponderación y una estructura no adecuada para fines de análisis. Actualmente, la BVC utiliza un índice complejo ponderado el cual se fundamenta en una metodología de canasta fija de acciones con lo que obtiene un indicador que modela el precio de mismas, tiene la desventaja que la cantidad de elementos que utiliza no varí...

Comparando inventarios Aplicación en auditoría

Buen día, me permito compartir otra aplicación estadística con datos y hechos reales. Me presentaron dos inventarios hechos por dos entidades diferentes,  tomados como parte de una pequeña auditoría a una bodega, me preguntaron si las diferencias significativas entre uno y otro  para concluir de que existían errores o un posible fraude en alguno de los dos auditores. Cajas Auditor 1 Auditor 2 Producto 1   126 133 Producto 2    180 197 Producto 3 5 17 Producto 4 15 17 Producto 5 113 122 Producto 6 61 66 Producto 7 45 50 Producto 8 89 113 Producto 9 209 218 Producto 10 57 64 Producto 11 132 136 Producto 12 200 211 Continua..... PRUEBA ESTADÍSTICA DE DIFERENCIA DE INVENTARIOS  Estadísticos A1 A2 Media 70.4 78.3 V...

Un poco de Estadística Descriptiva

De la ficción a la realidad hay mucho trecho, o de lo que se cree esta muy lejos de ser verdad, esto pasa en muchas ocasiones con muchos profesionales que desconocen la influencia que tiene una variabilidad en un conjunto de datos, conllevando a que se utilice pocos o ningún criterio estadístico en un análisis de datos. Para ello voy a traerles un ejemplo REAL  y CLARO  de una pésima, interpretación de la realidad.  Para contextualizar un poco el caso me permito decir, Colombia es un país de grandes desigualdades económicas donde gran parte de su población es pobre, cuyos habitantes se mueve en un comercio un poco informal, del cual se destaca las tiendas de barrios, que no son mas que una familia pobre que utiliza su casa para vender productos detrás de un mostrador. Según cifras de Nielsen existen al rededor de 250.000 establecimiento con estas características. En estos establecimientos se co...

Videos educativos

Buscando una información en la WEB me encontré unos muy buenos vídeos educativos de la universidad Carlos III, que me complace compartir algunos link con ustedes. Amplitud Min Max: No adjunto mas vídeos, por que estos me bloquean el Blogger,

El Muestro Aleatorio Estratificado En Una Investigación de Mercados

Ahora esta empresa de mercados  a visto que el mercado se encuentra segmentado en tres grandes estratos Wh y de tal manera que: Vamos a ver si tenemos una ganancia en el tamaño de muestra al cambiar el tipo de muestreo por un  mas interesante como lo es el Muestreo Aleatorio Estratificado. Para lo cual se igualan precisiones y se despeja desde allí el tamaño de muestra.  El tamaño de la encuesta baja de 2400 encuestas a 2271.

Blanco ó Negro ?

Voy a hablar del controvertido libro The Bell Curve escrito por Charles Murray y Richard J. Herrnstein, en una parte de esta obra literaria se afirma que las personas de color de piel blanca son más inteligentes. Para realizar esta afirmación los autores se basan en métodos estadísticos de correlación. En el libro se plantea lo siguiente. Se tiene dos poblaciones, una de blancos (B) y otra de negros (N). En ambas poblaciones se miden dos características que son: Inteligencia (I) Aptitud (A), se asume que en ambas poblaciones la aptitud es la misma, pero por circunstancias de educación y ambiente la variable Inteligencia tiene un mayor valor en los blancos. Digamos que se sea predecir la Aptitud conociendo la Inteligencia, bajo este planteamiento se podría llegar a la conclusión de que las personas de color de piel blanca tendrán una mayor calificación que los individuos de color negro. Pero la anterior argumentación esta sesgada, y quizas mal intensionada ya que el  resultad...