martes, 29 de mayo de 2018

Un recordatorio sobre la regresión lineal en un conjunto de parejas de valores de dos variables estadísticas

Dadas dos variables estadísticas $X$ e $Y$ y un conjunto de puntos en el plano con las medidas de ambas variables $(x_1,y_1;n_1)$, $(x_2,y_2;n_2)$,...,$(x_k,y_k;n_k)$, siendo $n_1,n_2,\ldots,n_k$ las frecuencias absolutas de cada una de dichas parejas, la recta de regresión lineal de $Y$ sobre $X$ en la forma punto-pendiente viene dada por $$y-\bar{y}=\dfrac{s_{xy}}{s_{x}^{2}}\,(x-\bar{x})$$ y la recta de regresión lineal de $X$ sobre $Y$ tiene por ecuación ( en la forma punto-pendiente ) $$x-\bar{x}=\dfrac{s_{xy}}{s_{y}^{2}}\,(y-\bar{y})$$
donde
$$s_{x}^{2}=\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{k}\,x_{i}^{2}\,n_i-\bar{x}^2$$ y
$$s_{y}^{2}= \displaystyle \dfrac{1}{N}\,\sum_{i=1}^{k}\,y_{i}^{2}\,n_i-\bar{y}^2$$ son las varianzas de $X$ e $Y$ ( siendo $N=\displaystyle \sum_{i=1}^{k}\,n_i$ ); $x_{xy}=\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{k}\,(x_i-\bar{x})(y_i-\bar{y})\,n_i$ es la covarianza de $X$ e $Y$; $\bar{x}=\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{k}\,x_i\,n_i$, la media de $X$ e $\displaystyle \bar{y}=\dfrac{1}{N}\,\sum_{i=1}^{k}\,y_i\,n_i$, la media de $Y$

Por otra parte, el coeficiente de correlación de Pearson se define así $$-1 \le \dfrac{s_{xy}}{s_{x}\,s_{y}} \le 1$$ donde $s_x$ y $s_y$ son las desviaciones estándard de $X$ e $Y$

La fuerza del ajuste del ajuste de la recta de regresión lineal a los datos experimentales viene dada por el coeficiente de determinación, $R^2$, que se define de la forma $$0\le R^2\overset{\text{def}}{=}(r)^2\le 1$$

Observación:
Notemos que el punto de coordenadas $(\bar{x},\bar{y})$ satisface por igual una y otra recta de regresión, y, por tanto, éste es el punto de intersección de las mismas.

Nota: Las ecuaciones de las rectas de regresión lineal se deducen imponiendo un criterio de mínima distancia al cuadrado de cada uno de los puntos de la nube al punto sobre dicha recta que tiene la misma abscisa que el punto dado, pero ello se estudia en el Bachillerato. En este curso ( 4.º de ESO ), nos limitamos a aplicar estos resultados.

-oOo-

Calcular la recta de regresión lineal de $Y$ sobre $X$ con ayuda de una calculadora científica básica ( del tipo Casio fx82 MS ) es rápido y sencillo: primero hay poner la calculadora en el modo adecuado ( MODE REG(3) - > LIN(1) ), y a continuación hay que introducir los datos de la siguiente forma:
$x_1,y_1;n_1$ M+
$x_2,y_2;n_2$ M+
...
$x_k,y_k;n_k$ M+
Hecho ésto, basta con consultar los resultados:
S-VAR -> -> 1
A(1),B(2),r(3)
De manera que la recta pedida, en forma explícita, vendrá dada por $y=Bx+A$, pudiendo saber también el valor de $r$ ( el coeficiente de correlación de Pearson )

Ejemplo:

Seleccionando el modo de cálculo de regresión ( MODE 3 ) de la calculadora científica básica y, a continuación, el ajustes lineal ( 1), e introduciendo los puntos $(x,y)$:
1,0;1 M+
3,2;1 M+
4,4;1 M+
5,4;1 M+
5,6;1 M+
ya podemos pasar a consultar el valor de los coeficientes $A$ y $B$ de la recta de regresión lineal de $Y$ sobre $X$, así como el coeficiente de correlación de Pearson $r$: ( S-VAR -> -> 1,2,3 ), obteniendo los siguientes valores (aproximando a las diezmilésimas):
$$A=-1,4286$$ $$B=1,2857$$ y $$r=0,9435$$ Así pues, la recta de regresión lineal de $Y$ sobre $X$ es $$y=1,2857\,x-1,4286$$

Nota: El coeficiente de determinación $R^2$, que se suele expresar en tanto por ciento, es aquí, del $89\,\%$

Por otra parte, el valor estimado de $y$ ( que denotaremos por $\hat{y}$ ) para $x=2$, se calcula haciendo uso del modelo de ajuste por regresión, sustituyendo $x$ por el valor $2$ $$1,2857\cdot 2-1,4286=1,1429$$ y puede calcularse también con la calculadora, directamente, tecleando S-VAR -> -> -> 2 obteniendo $$\hat{y}=1,1429$$

El siguiente gráfico muestra la nube de puntos y la recta de regresión lineal de $Y$ sobre $X$ pedida

$\square$

No hay comentarios:

Publicar un comentario

Gracias por tus comentarios