Cuál es el propósito de el coeficiente de correlación (r²) en la regresión lineal?, y porque debe tomarse válido para r²>0,95 en algunos caso y r²>0,98 para otros??

Respuestas

Respuesta dada por: Azurbanipal123
0

En primer lugar debemos distinguir algunos conceptos básicos para no confundirnos:

  • r: coeficiente de correlación de Pearson, hablaremos de este solo, ya que hay muchos coeficientes de correlación (Spearman, Kendall, etc).
  • R²: coeficiente de determinación

Coeficiente de correlación de Pearson

El r indica qué tan fuerte es una relación lineal entre dos variables, matemáticamente se expresa como la división entre la covarianza y el producto de las desviaciones estándar de dichas variables, o sea:

 r_{xy}  = r=  \frac{cov(x,y)}{ \sigma _{x}  \sigma _{y}} \\ Como: \:  cov(x, y) <σ_xσ_y  \\ → \:  - 1 \leqslant r \leqslant  + 1

Esa es la explicación de por qué el valor de r va entre el -1 y el +1, el signo indicará dos cosas: Si es positivo la relación entre las variables es directa; si es negativo, será inversa.

Si la covarianza es muy pequeña, el valor de r tenderá a cero y entre las variables no habrá relación lineal. Si la covarianza es muy grande, r tenderá a ser ±1, en ese caso la correlación será fuerte. Ejemplo: Si obtenemos un valor de r=0.95 la correlación (directa) es aceptable, y si r=0.98, será aún más aceptable.

Ahora, cuando a r lo elevamos al cuadrado, lo que hallamos es el porcentaje de la variación de y debido a la variación de x.

Coeficiente de determinación

El indica qué tan bueno es un modelo (ya sea lineal u otro), por eso se le conoce también como bondad del ajuste (sea este lineal o no), se le calcula así:

 {R}^{2}  =  \frac{ S_{\widehat{y}} }{S_{y}}   \times 100\%

Siendo el numerador la varianza de los datos estimados por el modelo y el denominador (Sy) la varianza de los datos observados.

Mientras más el valor se aproxime a 100%, el modelo será el mejor para el ajuste de los datos.

OBS: Si y solo si trabajamos con un modelo lineal, y este tiene sentido o robustez, se tiene que: R² = r²

En el ejemplo anterior, ambos valores de R² indican una robustez en el modelo lineal.

Preguntas similares