Respuestas
Respuesta:
El problema de la colinealidad
Es uno de los problemas más desesperantes con que uno se puede encontrar en un análisis de regresión. Como ya vimos al hablar de la estimación de los coeficientes, si en un modelo de RLM alguna variable independiente es combinación lineal de otras, el modelo es irresoluble, debido a que, en ese caso, la matriz X'X es singular, es decir, su determinante es cero y no se puede invertir.
A este fenómeno se le denomina colinealidad. Que una variable X1 sea combinación lineal de otra X2, significa que ambas están relacionadas por la expresión X1 = b1 + b2X2, siendo b1 y b2 constantes, por lo tanto el coeficiente de correlación entre ambas variables será 1.
Del mismo modo, que una variable X1 sea combinación lineal de otras X2, ..., Xi con i>2, significa que dichas variables están relacionadas por la expresión X1 = b1 > + b2 X2 + ... + bi Xi, siendo b1,..., bi constantes y por tanto, el coeficiente de correlación múltiple RX1|X2,...Xi también será 1.
Otro modo, por tanto, de definir la colinealidad es decir que existe colinealidad cuando alguno de los coeficientes de correlación simple o múltiple entre algunas de las variables independientes es 1, es decir, cuando algunas variables independientes están correlacionadas entre sí.
En la práctica, esta colinealidad exacta raras veces ocurre, pero sí surge con cierta frecuencia la llamada casi-colinealidad, o por extensión, simplemente colinealidad en que alguna variable es "casi" combinación lineal de otra u otras, o dicho de otro modo, algunos coeficientes de correlación simple o múltiple entre las variables independientes están cercanos a 1, aunque no llegan a dicho valor.
En este caso la matriz X'X es casi-singular, es decir su determinante no es cero pero es muy pequeño. Como para invertir una matriz hay que dividir por su determinante, en esta situación surgen problemas de precisión en la estimación de los coeficientes, ya que los algoritmos de inversión de matrices pierden precisión al tener que dividir por un número muy pequeño, siendo además inestables.
Además, como la matriz de varianzas de los estimadores es proporcional a X'X, resulta que en presencia de colinealidad los errores estándar de los coeficientes son grandes (hay imprecisión también en sentido estadístico).
Por consiguiente, a la hora de plantear modelos de RLM conviene estudiar previamente la existencia de casi-colinealidad (la colinealidad exacta no es necesario estudiarla previamente, ya que todos los algoritmos la detectan, de hecho no pueden acabar la estimación). Como medida de la misma hay varios estadísticos propuestos, los más sencillos son los coeficientes de determinación de cada variable independiente con todas las demás, es decir
y, relacionados con ellos, el factor de inflación de la varianza (FIV) y la tolerancia (T), definidos como