UN BUEN R-CUADRADO PERO...

Buenos días mis lectores de diferentes partes del mundo, quiero compartirles un caso real, de un buen R-cuadrado pero... algo pasa. Este articulo va dirigido a muchas personas, empresas que solo ven el R-cuadrado y si este es mayor a 0.60 consideran que el modelo es bueno y por ende apropiado para modelar la realidad del fenómeno. También quiero enfatizar que en mucha literatura acepta la validez del modelo tan solo evaluando el coeficiente de determinación; Algo que no es del todo cierto ya que un modelo estadístico, por mas sencillo que sea, debe de cumplir una serie de normas o supuestos.

Aquí evaluaremos levemente el no cumplimiento de unos supuestos con sus respectivas implicaciones.

Vamos a hacerlo de la manera mas sencilla posible tomando dos variables reales. Entonces se evaluaran dos variables X que es la cantidad de viviendas en un barrio, y Y que es la cantidad de predios conectados al gas natural domiciliario, en la ciudad de Cali Colombia.

El primer paso es cuantificar el grado de relación lineal entre la cantidad de viviendas y el número de predios conectados al gas natural, para ello calculamos el Coeficiente de Correlación de Pearson.

El coeficiente de Pearson nos dio 0.985 !!! se podría decir que existe una correlación lineal positiva casi perfecta. Se puede realizar un gráfico de dispersión para así comprobar la correlación, lo cual no esta mal, pero no es suficiente.

Entonces se procede ha plantear un modelo de regresión lineal simple, se ejecuta en el paquete SPSS y se obtiene el siguiente resultado.

Huy!!! un R cuadrado del 0.970 Muchos que trabajan datos adoptarian el modelo sin mas ni menos, pero cuidado.

En este momento cobran vida LOS SUPUESTOS ESTADÍSTICOS que son: de que para cada uno de los valores de la variable independiente la distribución de la variable dependiente debe ser normal. La varianza debe ser constante para la variable dependiente en cada uno de los valores de la variable independiente. La relación entre las variables X e Y debe ser lineal, y todos los valores observables deben ser independientes. Vamos ha ver algunos supuestos, aunque la labor del investigador es comprobar todos .

Normalidad:

A simple vista el modelo no cumple el supuesto de normalidad ya los puntos de dispersión no siguen la linea recta, para comprobar esta hipótesis se realizo una prueba de Kolmogorff-Smirnov la cual se concluye de que no hay suficiente evidencia para aceptar la hipotesis de normalidad, además el comportamiento de la linea en S nos indica presencia de puntos atípicos los cuales provocan una distribución de los errores con alta curtosis de esta forma los estimadores mínimo cuadrados que son pocos eficientes o sea que la varianza del estimador es alta haciendo que la estimación sea menos fiable para solucionar este problema hay métodos como la regresión robusta o el método de mínimos cuadrados generalizados, este primero consiste en asignar menos peso a aquellos valores mas extremos.

Homocedasticidad:
Graficamente se observa que para el recorrido de la variable X la varianza del error no es constante (Heterocedasticidad), ya que esta tiene forma de embudo haciendo que los estimadores ya no sean eficientes o sea que su varianza sea alta

La solución y la comprobación de los otros supuestos estadísticos se escapa del objetivo de esta lectura pero existe suficiente bibliografia en donde se detalla muy bien la manera de llegar a un buen modelo, la idea de esta lectura es enfatizar de que no siempre un R cuadrado del 0.970 es bueno y que es solo es un pequeño paso para poder plantear un buen modelo. Igualmente considero que estos datos es un buen ejercicio para aquellos estudiantes que empiezan en el mundo de la estadística

para el que quiera comprobar por si mismo estos resultados me pueden escribir y a vuelta de correo les reenviare la base de datos.

Comentarios

luis peru ha dicho que…

y que pasa cuando el r cuadrado es 0.20 a pesar que se hizo varia transformaciones como por logaritmo

20 de marzo de 2013, 20:06

CONSULTORIA ESTADÍSTICA STATISTICAL CONSULTING

Buscar este blog

UN BUEN R-CUADRADO PERO...

Etiquetas

Comentarios

Entradas populares de este blog

Importación de un archivo csv utilizando SAS Vs R Vs Python

Un Gráfico de pastel para elecciones presidenciales 2010 en Colombia que no suma el 100%.

Análisis de Canasta