Ir al contenido principal

Blanco ó Negro ?

Voy a hablar del controvertido libro The Bell Curve escrito por Charles Murray y Richard J. Herrnstein, en una parte de esta obra literaria se afirma que las personas de color de piel blanca son más inteligentes.
Para realizar esta afirmación los autores se basan en métodos estadísticos de correlación.

En el libro se plantea lo siguiente.

Se tiene dos poblaciones, una de blancos (B) y otra de negros (N). En ambas poblaciones se miden dos características que son: Inteligencia (I) Aptitud (A), se asume que en ambas poblaciones la aptitud es la misma, pero por circunstancias de educación y ambiente la variable Inteligencia tiene un mayor valor en los blancos.

Digamos que se sea predecir la Aptitud conociendo la Inteligencia, bajo este planteamiento se podría llegar a la conclusión de que las personas de color de piel blanca tendrán una mayor calificación que los individuos de color negro.

Pero la anterior argumentación esta sesgada, y quizas mal intensionada ya que el  resultado real es totalmente diferente a lo que plantea el libro. Veamos por que...

Asumamos dos poblaciones, Blancos (B) y Negros (N) tengan la misma homogeneidad; o sea que la desviación típica y la media sean iguales. Ademas que exista una idéntica y alta correlación para ambas poblaciones, entre las variables Inteligencia (I) y Aptitud (A).

Con estas reglas vamos a darle valores a las variables:

  • Media_Inteligencia(B) = 9 = Media_Inteligencia(N) = 7
  • Coeficiente de Correlación = 0.80
  • Media_Aptitud(B) = 10 Media_Aptitud(N) = 10
La ecuaciones de las rectas de regresión serian:

  • N: A=10+0.80*(I-7)
  • B: A=10+0.80*(I-9)
Si por ejemplo dos individuos de diferentes grupos tiene la misma calificación, de tal forma que I=8
se tiene que:


  • N: H=10+0.80*(8-7)=10.8
  • B: H=10+0.80*(8-9)=9.2
Se obtiene un mayor puntaje para persona de color Negro; a pesar de tener una menor calificación el la variable Inteligente.

Gráficamente las rectas B y N son paralelas, donde N por tener un valor en la media menor en la variable Inteligencia  se ubica mas hacia la derecha; cuando A vale lo mismo, entonces el resultado de la ecuación para N va a ser mayor que B.

Estos tipos de errores de interpretación son muy recurrentes y de mucho cuidado.

Comentarios

Entradas populares de este blog

Importación de un archivo csv utilizando SAS Vs R Vs Python

E n el siguiente articulo, se realizara una comparación entre tres software, en cuanto a la velocidad, cantidad de caracteres del código, lógica y entendimiento de los lenguajes. Acá los resultados: El Archivo Se trata de un documento .CSV, llamado CaseStudy1. Y son datos de empleados de una compañía, la tabla contiene 8 variables y 424 registros. Figura 1: Tabla CaseStudy1 Importación SAS: Para importar el archivo usando SAS, es necesario clarificar que se esta trabajando desde un servidor llamado  On Demand For Academic, la cual es una interfaz de mi PC hacia SAS que se conecta vía web a un servidor a estados unidos. Abrir la version web de SAS que es el SAS Studio. Introducir el usuario y contraseña.  Figura 2: Credenciales Le damos clic en la area del SAS Studio, la cual nos va a llevar a version web de SAS. Como no es posible leer los archivos directamente desde mi equipo es necesario realizar un puente para poder importar los datos, para lo cual es

Un Gráfico de pastel para elecciones presidenciales 2010 en Colombia que no suma el 100%.

No se si este sumando mal pero a este grafico de pastel no le da el 100%; al parecer le falta un 8.4%. Y al parecer el 23.3% de Sanin ocupa más espacio en la torta que los demás candidatos. fuente: http://www.laopinion.com.co/noticias/index.php?option=com_content&task=view&id=347881&Itemid=31

Análisis de Canasta

El Análisis de canasta es un una metodología  muy utilizada de minería de datos que permite describir asociaciones  entre diferentes items.  Este método permite que fácilmente que  por ejemplo que identifiquemos las asociaciones propias en un lanzamiento de un nuevo producto, y conocer cual producto juega como  rol  apalancador y cual de soporte, de tal manera que permita de una mejor forma describir la causalidad entre productos a analizar.  Para entender un poco mas este concepto vamos a poner el siguiente ejemplo: En un día tenemos 5 transacciones en donde por cada compra una tenemos 3 productos: De donde se pueden desprender unas relaciones entre productos a los cuales se les puede llamar reglas y unas probabilidades llamadas soporte y confianza. Soporte : Se puede interpretar como la probabilidad de que se "vendan conjuntamente" los productos sobre el total de transacciones. De tal manera que si:  A >>D el cual tiene un soporte de 2/5 , (Veces