Ir al contenido principal

UN BUEN R-CUADRADO PERO...

Buenos días mis lectores de diferentes partes del mundo, quiero compartirles un caso real, de un buen R-cuadrado pero... algo pasa. Este articulo va dirigido a muchas personas, empresas que solo ven el R-cuadrado y si este es mayor a 0.60 consideran que el modelo es bueno y por ende apropiado para modelar la realidad del fenómeno. También quiero enfatizar que en mucha literatura acepta la validez del modelo tan solo evaluando el coeficiente de determinación; Algo que no es del todo cierto ya que un modelo estadístico, por mas sencillo que sea, debe de cumplir una serie de normas o supuestos.

Aquí evaluaremos levemente el no cumplimiento de unos supuestos con sus respectivas implicaciones.

Vamos a hacerlo de la manera mas sencilla posible tomando dos variables reales. Entonces se evaluaran dos variables X que es la cantidad de viviendas en un barrio, y Y que es la cantidad de predios conectados al gas natural domiciliario, en la ciudad de Cali Colombia.

El primer paso es cuantificar el grado de relación lineal entre la cantidad de viviendas y el número de predios conectados al gas natural, para ello calculamos el Coeficiente de Correlación de Pearson.

El coeficiente de Pearson nos dio 0.985 !!! se podría decir que existe una correlación lineal positiva casi perfecta. Se puede realizar un gráfico de dispersión para así comprobar la correlación, lo cual no esta mal, pero no es suficiente.


Entonces se procede ha plantear un modelo de regresión lineal simple, se ejecuta en el paquete SPSS y se obtiene el siguiente resultado.
Huy!!! un R cuadrado del 0.970 Muchos que trabajan datos adoptarian el modelo sin mas ni menos, pero cuidado.

En este momento cobran vida LOS SUPUESTOS ESTADÍSTICOS que son: de que para cada uno de los valores de la variable independiente la distribución de la variable dependiente debe ser normal. La varianza debe ser constante para la variable dependiente en cada uno de los valores de la variable independiente. La relación entre las variables X e Y debe ser lineal, y todos los valores observables deben ser independientes. Vamos ha ver algunos supuestos, aunque la labor del investigador es comprobar todos .

Normalidad:


A simple vista el modelo no cumple el supuesto de normalidad ya los puntos de dispersión no siguen la linea recta, para comprobar esta hipótesis se realizo una prueba de Kolmogorff-Smirnov la cual se concluye de que no hay suficiente evidencia para aceptar la hipotesis de normalidad, además el comportamiento de la linea en S nos indica presencia de puntos atípicos los cuales provocan una distribución de los errores con alta curtosis de esta forma los estimadores mínimo cuadrados que son pocos eficientes o sea que la varianza del estimador es alta haciendo que la estimación sea menos fiable para solucionar este problema hay métodos como la regresión robusta o el método de mínimos cuadrados generalizados, este primero consiste en asignar menos peso a aquellos valores mas extremos.

Homocedasticidad:
Graficamente se observa que para el recorrido de la variable X la varianza del error no es constante (Heterocedasticidad), ya que esta tiene forma de embudo haciendo que los estimadores ya no sean eficientes o sea que su varianza sea alta

La solución y la comprobación de los otros supuestos estadísticos se escapa del objetivo de esta lectura pero existe suficiente bibliografia en donde se detalla muy bien la manera de llegar a un buen modelo, la idea de esta lectura es enfatizar de que no siempre un R cuadrado del 0.970 es bueno y que es solo es un pequeño paso para poder plantear un buen modelo. Igualmente considero que estos datos es un buen ejercicio para aquellos estudiantes que empiezan en el mundo de la estadística

para el que quiera comprobar por si mismo estos resultados me pueden escribir y a vuelta de correo les reenviare la base de datos.

Comentarios

luis peru ha dicho que…
y que pasa cuando el r cuadrado es 0.20 a pesar que se hizo varia transformaciones como por logaritmo

Entradas populares de este blog

Importación de un archivo csv utilizando SAS Vs R Vs Python

E n el siguiente articulo, se realizara una comparación entre tres software, en cuanto a la velocidad, cantidad de caracteres del código, lógica y entendimiento de los lenguajes. Acá los resultados: El Archivo Se trata de un documento .CSV, llamado CaseStudy1. Y son datos de empleados de una compañía, la tabla contiene 8 variables y 424 registros. Figura 1: Tabla CaseStudy1 Importación SAS: Para importar el archivo usando SAS, es necesario clarificar que se esta trabajando desde un servidor llamado  On Demand For Academic, la cual es una interfaz de mi PC hacia SAS que se conecta vía web a un servidor a estados unidos. Abrir la version web de SAS que es el SAS Studio. Introducir el usuario y contraseña.  Figura 2: Credenciales Le damos clic en la area del SAS Studio, la cual nos va a llevar a version web de SAS. Como no es posible leer los archivos directamente desde mi equipo es necesario realizar un puente para poder importar los datos, para lo cual es

Un Gráfico de pastel para elecciones presidenciales 2010 en Colombia que no suma el 100%.

No se si este sumando mal pero a este grafico de pastel no le da el 100%; al parecer le falta un 8.4%. Y al parecer el 23.3% de Sanin ocupa más espacio en la torta que los demás candidatos. fuente: http://www.laopinion.com.co/noticias/index.php?option=com_content&task=view&id=347881&Itemid=31

Fácil y desde cero, Minería de datos. Aplicaciones casos reales. (Arboles)

Un banco quiere tener un modelo estadístico, en el cual permita medir el riesgo de realizar un préstamo hipotecario (pagos e impagos de la deuda), para poder cuantificar este riesgo se va a tener en cuenta una serie de variables que según el científico de datos puede llegar a ser relevantes.Para esto se selecciona una muestra representativa de la población de usuarios del banco. Los datos describen el comportamiento de cada cliente al corte de un periodo dado, de tal manera que se tendrá dentro de la muestra personas que están al día  o en mora con su crédito hipotecario. A continuación se realizará una descripción de las variables que quizás puedan influenciar en el resultado del modelo. En resumen, son variables que indican numero de obligaciones, en diferentes cortes de tiempo, cantidad de consultas a la centrales de riesgo, porcentajes de deudas, saldos de deudas, tiempos trascurridos desde el ultimo pago etc ... Siguiendo la metodología de minería de datos lo prime