martes, 29 de mayo de 2018

Un recordatorio sobre la regresión lineal en un conjunto de parejas de valores de dos variables estadísticas

Dadas dos variables estadísticas $X$ e $Y$ y un conjunto de puntos en el plano con las medidas de ambas variables $(x_1,y_1;n_1)$, $(x_2,y_2;n_2)$,...,$(x_k,y_k;n_k)$, siendo $n_1,n_2,\ldots,n_k$ las frecuencias absolutas de cada una de dichas parejas, la recta de regresión lineal de $Y$ sobre $X$ en la forma punto-pendiente viene dada por $$y-\bar{y}=\dfrac{s_{xy}}{s_{x}^{2}}\,(x-\bar{x})$$ y la recta de regresión lineal de $X$ sobre $Y$ tiene por ecuación ( en la forma punto-pendiente ) $$x-\bar{x}=\dfrac{s_{xy}}{s_{y}^{2}}\,(y-\bar{y})$$
donde
$$s_{x}^{2}=\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{k}\,x_{i}^{2}\,n_i-\bar{x}^2$$ y
$$s_{y}^{2}= \displaystyle \dfrac{1}{N}\,\sum_{i=1}^{k}\,y_{i}^{2}\,n_i-\bar{y}^2$$ son las varianzas de $X$ e $Y$ ( siendo $N=\displaystyle \sum_{i=1}^{k}\,n_i$ ); $x_{xy}=\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{k}\,(x_i-\bar{x})(y_i-\bar{y})\,n_i$ es la covarianza de $X$ e $Y$; $\bar{x}=\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{k}\,x_i\,n_i$, la media de $X$ e $\displaystyle \bar{y}=\dfrac{1}{N}\,\sum_{i=1}^{k}\,y_i\,n_i$, la media de $Y$

Por otra parte, el coeficiente de correlación de Pearson se define así $$-1 \le \dfrac{s_{xy}}{s_{x}\,s_{y}} \le 1$$ donde $s_x$ y $s_y$ son las desviaciones estándard de $X$ e $Y$

La fuerza del ajuste del ajuste de la recta de regresión lineal a los datos experimentales viene dada por el coeficiente de determinación, $R^2$, que se define de la forma $$0\le R^2\overset{\text{def}}{=}(r)^2\le 1$$

Observación:
Notemos que el punto de coordenadas $(\bar{x},\bar{y})$ satisface por igual una y otra recta de regresión, y, por tanto, éste es el punto de intersección de las mismas.

Nota: Las ecuaciones de las rectas de regresión lineal se deducen imponiendo un criterio de mínima distancia al cuadrado de cada uno de los puntos de la nube al punto sobre dicha recta que tiene la misma abscisa que el punto dado, pero ello se estudia en el Bachillerato. En este curso ( 4.º de ESO ), nos limitamos a aplicar estos resultados.

-oOo-

Calcular la recta de regresión lineal de $Y$ sobre $X$ con ayuda de una calculadora científica básica ( del tipo Casio fx82 MS ) es rápido y sencillo: primero hay poner la calculadora en el modo adecuado ( MODE REG(3) - > LIN(1) ), y a continuación hay que introducir los datos de la siguiente forma:
$x_1,y_1;n_1$ M+
$x_2,y_2;n_2$ M+
...
$x_k,y_k;n_k$ M+
Hecho ésto, basta con consultar los resultados:
S-VAR -> -> 1
A(1),B(2),r(3)
De manera que la recta pedida, en forma explícita, vendrá dada por $y=Bx+A$, pudiendo saber también el valor de $r$ ( el coeficiente de correlación de Pearson )

Ejemplo:

Seleccionando el modo de cálculo de regresión ( MODE 3 ) de la calculadora científica básica y, a continuación, el ajustes lineal ( 1), e introduciendo los puntos $(x,y)$:
1,0;1 M+
3,2;1 M+
4,4;1 M+
5,4;1 M+
5,6;1 M+
ya podemos pasar a consultar el valor de los coeficientes $A$ y $B$ de la recta de regresión lineal de $Y$ sobre $X$, así como el coeficiente de correlación de Pearson $r$: ( S-VAR -> -> 1,2,3 ), obteniendo los siguientes valores (aproximando a las diezmilésimas):
$$A=-1,4286$$ $$B=1,2857$$ y $$r=0,9435$$ Así pues, la recta de regresión lineal de $Y$ sobre $X$ es $$y=1,2857\,x-1,4286$$

Nota: El coeficiente de determinación $R^2$, que se suele expresar en tanto por ciento, es aquí, del $89\,\%$

Por otra parte, el valor estimado de $y$ ( que denotaremos por $\hat{y}$ ) para $x=2$, se calcula haciendo uso del modelo de ajuste por regresión, sustituyendo $x$ por el valor $2$ $$1,2857\cdot 2-1,4286=1,1429$$ y puede calcularse también con la calculadora, directamente, tecleando S-VAR -> -> -> 2 obteniendo $$\hat{y}=1,1429$$

El siguiente gráfico muestra la nube de puntos y la recta de regresión lineal de $Y$ sobre $X$ pedida

$\square$

lunes, 28 de mayo de 2018

Un ejercicio básico de agrupación de valores de una variable estadística en intervalos

ENUNCIADO.

SOLUCIÓN.
Observemos que el número de valores es $N=6\cdot 6+2=38$ ( están dispuestos en un rectángulo de $6$ filas por $6$ columnas, más otros dos valores en una séptima fila ); así pues el número de intervalos, $n_c$, de agrupación que tomaremos es el entero más próximo a $|\sqrt{N}|$, esto es $n_c=6$. Establecemos que todos los intervalos tengan la misma longitud, $\ell$, que será igual al entero por exceso que aproxima a $\dfrac{\text{rango}}{n_c}$, esto es $\dfrac{|x_{\text{máx}}-x_{\text{mín}}|}{n_c}=\dfrac{|79-52|}{6}\approx 5$.

El extremo inferior del primer intervalo lo establecemos de la siguiente forma $$e_{1}^{\text{inf}}=x_{\text{mín}}-\dfrac{n_c\cdot \ell - \text{rango}}{2}$$ que nos da un valor de $$e_{1}^{\text{inf}}=52-\dfrac{6\cdot 5 - 27}{2}=50'5$$

Así pues, los $6$ intervalos de agrupación son: $[50'5\,,\,55'5)$, $[55'5\,,\,60'5)$, $[60'5\,,\,65'5)$, $[65'5\,,\,70'5)$, $[70'5\,,\,75'5)$ y $[75'5\,,\,80'5)$

La agrupación de los valores queda como sigue:

----------------------------
----------------------------
i | intervalo   | n_i  | N_i
----------------------------
1 | [50'5,55'5) |  5   |  5
----------------------------
2 | [55'5,60'5) |  5   | 10
----------------------------
1 | [60'5,65'5) |  8   | 18
----------------------------
1 | [65'5,70'5) | 11   | 29
----------------------------
1 | [70'5,75'5) |  5   | 34
----------------------------
1 | [75'5,80'5) |  4   | 38
----------------------------


Nota:
Para hacer el recuento con comodidad, puede ser de utilidad elaborar el diagrama de tallo y hojas:

5| 7 4 2 9 8 5 5 4 7
6| 8 7 0 2 9 3 1 5 7 4 6 7 4 6 9 1 4 8 
7| 4 5 4 7 9 1 0 8 0 8 3

y ordenando el dígito de las decenas:
5| 2 4 4 5 5 7 7 8 9
6| 0 1 1 2 3 4 4 4 5 6 6 7 7 7 8 8 9 9 
7| 0 0 1 3 4 4 5 7 8 8 9


$\square$

miércoles, 9 de mayo de 2018

Diagramas de red

En este ejemplo, adecuado para utilizar un diagrama de red, se representan las notas de cuatro alumnos en cuatro asignaturas.

Estadística descriptiva unidimensional. Valores atípicos

Sea un valor $k$ de una variable estadística $X$. Convendremos que dicho valor es atípico si $k\succ Q_3 + 1,5\cdot RIQ$ o bien si $k \prec Q_1-1,5\cdot \text{RIQ}$, donde el rango intercuartílico $\text{RIQ}$ se define como $|Q_3-Q_1|$

Ejemplo:
ENUNCIADO. En una distribución estadística de una cierta variable estadística $X$ se sabe que el rango intercuartílico es $10$ y que el valor del tercer cuartil es $15$. Sea un cierto valor de la variable estadística, que es 31. Justifíquese el hecho de que dicho valor sea atípico.

SOLUCIÓN
Observemos que $Q_3+1,5 \cdot \text{RIQ}=15+1,5\cdot 10=15+15=30 \prec 31$, luego $31$ es un valor atípico.

Nota: Los valores atípicos se representan con un asterisco en el diagrama de caja y bigotes

$\square$