Mostrando las entradas para la consulta regresión ordenadas por relevancia. Ordenar por fecha Mostrar todas las entradas
Mostrando las entradas para la consulta regresión ordenadas por relevancia. Ordenar por fecha Mostrar todas las entradas

martes, 29 de mayo de 2018

Un recordatorio sobre la regresión lineal en un conjunto de parejas de valores de dos variables estadísticas

Dadas dos variables estadísticas $X$ e $Y$ y un conjunto de puntos en el plano con las medidas de ambas variables $(x_1,y_1;n_1)$, $(x_2,y_2;n_2)$,...,$(x_k,y_k;n_k)$, siendo $n_1,n_2,\ldots,n_k$ las frecuencias absolutas de cada una de dichas parejas, la recta de regresión lineal de $Y$ sobre $X$ en la forma punto-pendiente viene dada por $$y-\bar{y}=\dfrac{s_{xy}}{s_{x}^{2}}\,(x-\bar{x})$$ y la recta de regresión lineal de $X$ sobre $Y$ tiene por ecuación ( en la forma punto-pendiente ) $$x-\bar{x}=\dfrac{s_{xy}}{s_{y}^{2}}\,(y-\bar{y})$$
donde
$$s_{x}^{2}=\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{k}\,x_{i}^{2}\,n_i-\bar{x}^2$$ y
$$s_{y}^{2}= \displaystyle \dfrac{1}{N}\,\sum_{i=1}^{k}\,y_{i}^{2}\,n_i-\bar{y}^2$$ son las varianzas de $X$ e $Y$ ( siendo $N=\displaystyle \sum_{i=1}^{k}\,n_i$ ); $x_{xy}=\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{k}\,(x_i-\bar{x})(y_i-\bar{y})\,n_i$ es la covarianza de $X$ e $Y$; $\bar{x}=\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{k}\,x_i\,n_i$, la media de $X$ e $\displaystyle \bar{y}=\dfrac{1}{N}\,\sum_{i=1}^{k}\,y_i\,n_i$, la media de $Y$

Por otra parte, el coeficiente de correlación de Pearson se define así $$-1 \le \dfrac{s_{xy}}{s_{x}\,s_{y}} \le 1$$ donde $s_x$ y $s_y$ son las desviaciones estándard de $X$ e $Y$

La fuerza del ajuste del ajuste de la recta de regresión lineal a los datos experimentales viene dada por el coeficiente de determinación, $R^2$, que se define de la forma $$0\le R^2\overset{\text{def}}{=}(r)^2\le 1$$

Observación:
Notemos que el punto de coordenadas $(\bar{x},\bar{y})$ satisface por igual una y otra recta de regresión, y, por tanto, éste es el punto de intersección de las mismas.

Nota: Las ecuaciones de las rectas de regresión lineal se deducen imponiendo un criterio de mínima distancia al cuadrado de cada uno de los puntos de la nube al punto sobre dicha recta que tiene la misma abscisa que el punto dado, pero ello se estudia en el Bachillerato. En este curso ( 4.º de ESO ), nos limitamos a aplicar estos resultados.

-oOo-

Calcular la recta de regresión lineal de $Y$ sobre $X$ con ayuda de una calculadora científica básica ( del tipo Casio fx82 MS ) es rápido y sencillo: primero hay poner la calculadora en el modo adecuado ( MODE REG(3) - > LIN(1) ), y a continuación hay que introducir los datos de la siguiente forma:
$x_1,y_1;n_1$ M+
$x_2,y_2;n_2$ M+
...
$x_k,y_k;n_k$ M+
Hecho ésto, basta con consultar los resultados:
S-VAR -> -> 1
A(1),B(2),r(3)
De manera que la recta pedida, en forma explícita, vendrá dada por $y=Bx+A$, pudiendo saber también el valor de $r$ ( el coeficiente de correlación de Pearson )

Ejemplo:

Seleccionando el modo de cálculo de regresión ( MODE 3 ) de la calculadora científica básica y, a continuación, el ajustes lineal ( 1), e introduciendo los puntos $(x,y)$:
1,0;1 M+
3,2;1 M+
4,4;1 M+
5,4;1 M+
5,6;1 M+
ya podemos pasar a consultar el valor de los coeficientes $A$ y $B$ de la recta de regresión lineal de $Y$ sobre $X$, así como el coeficiente de correlación de Pearson $r$: ( S-VAR -> -> 1,2,3 ), obteniendo los siguientes valores (aproximando a las diezmilésimas):
$$A=-1,4286$$ $$B=1,2857$$ y $$r=0,9435$$ Así pues, la recta de regresión lineal de $Y$ sobre $X$ es $$y=1,2857\,x-1,4286$$

Nota: El coeficiente de determinación $R^2$, que se suele expresar en tanto por ciento, es aquí, del $89\,\%$

Por otra parte, el valor estimado de $y$ ( que denotaremos por $\hat{y}$ ) para $x=2$, se calcula haciendo uso del modelo de ajuste por regresión, sustituyendo $x$ por el valor $2$ $$1,2857\cdot 2-1,4286=1,1429$$ y puede calcularse también con la calculadora, directamente, tecleando S-VAR -> -> -> 2 obteniendo $$\hat{y}=1,1429$$

El siguiente gráfico muestra la nube de puntos y la recta de regresión lineal de $Y$ sobre $X$ pedida

$\square$

martes, 19 de mayo de 2020

Ejercicio 2 de la semana del 18 al 24 de mayo de 2020 - Estadística de dos variables. Noción de correlación estadística entre dos variables

Ejercicio 30 de la página 287 del libro base
ENUNCIADO.
( Haz clic sobre la imagen para verla en tamaño natural )

SUGERENCIA ( Ampliación ). Lee esta otra entrada de este mismo blog.

INDICACIÓN. Si estás utilizando un smartphone, haz clic en "ver como página web" ( al final de la página ) para poder ver las fórmulas matemáticas

NOTA 1. Si estás utilizando un smartphone, haz clic en "ver como página web" ( al final de la página ) para poder ver las fórmulas matemáticas

SOLUCIÓN.

a) En las tres gráficas se relacionan dos magnitudes ( dos variables): la cantidad de forraje que sirve de alimento a las vacas y la leche que producen

b) Hay 20 puntos en cada gráfica, luego se está hablando de 20 vacas

c)
En la gráfica de la izquierda, la correlación estadística entre la cantidad de alimento que consumen las vacas y la cantidad de leche que producen es negativa ( cuánto más comen menos leche dan ), lo cual no tiene mucho sentido, a menos que se produzca una situación muy anómala ( sobre la que no se nos piede que hagamos conjeturas ); por lo demás, los puntos tienden a situarse alrededor de una recta teórica ( existe correlación estadística ), que se llama recta de regresión lineal.

En la gráfica central se expone una situación en la que no existe correlación estadística entre las dos variables, ya que los puntos aparecen distribuidos al azar por todo el plano, lo cual también es una situación un tanto extraña.

La tercera gráfica (por la izquierda) es la que tiene más verosimilitud. Los puntos también están alrededor de la recta teórica ( recta de regresión lineal ) y, además, se ajustan mejor a ella que los de la primera gráfica por la izquierda - decimos que hay un mayor grado de correlación estadística entre las dos variables -. La pendiente de dicha recta es positiva ( decimos que la correlación entre las dos variables es positiva ), tal y como cabría esperar, pues cuánto más coman, en principio, más leche se espera que den.