Processing math: 100%

martes, 29 de mayo de 2018

Un recordatorio sobre la regresión lineal en un conjunto de parejas de valores de dos variables estadísticas

Dadas dos variables estadísticas X e Y y un conjunto de puntos en el plano con las medidas de ambas variables (x_1,y_1;n_1), (x_2,y_2;n_2),...,(x_k,y_k;n_k), siendo n_1,n_2,\ldots,n_k las frecuencias absolutas de cada una de dichas parejas, la recta de regresión lineal de Y sobre X en la forma punto-pendiente viene dada por y-\bar{y}=\dfrac{s_{xy}}{s_{x}^{2}}\,(x-\bar{x}) y la recta de regresión lineal de X sobre Y tiene por ecuación ( en la forma punto-pendiente ) x-\bar{x}=\dfrac{s_{xy}}{s_{y}^{2}}\,(y-\bar{y})
donde
s_{x}^{2}=\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{k}\,x_{i}^{2}\,n_i-\bar{x}^2 y
s_{y}^{2}= \displaystyle \dfrac{1}{N}\,\sum_{i=1}^{k}\,y_{i}^{2}\,n_i-\bar{y}^2 son las varianzas de X e Y ( siendo N=\displaystyle \sum_{i=1}^{k}\,n_i ); x_{xy}=\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{k}\,(x_i-\bar{x})(y_i-\bar{y})\,n_i es la covarianza de X e Y; \bar{x}=\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{k}\,x_i\,n_i, la media de X e \displaystyle \bar{y}=\dfrac{1}{N}\,\sum_{i=1}^{k}\,y_i\,n_i, la media de Y

Por otra parte, el coeficiente de correlación de Pearson se define así -1 \le \dfrac{s_{xy}}{s_{x}\,s_{y}} \le 1 donde s_x y s_y son las desviaciones estándard de X e Y

La fuerza del ajuste del ajuste de la recta de regresión lineal a los datos experimentales viene dada por el coeficiente de determinación, R^2, que se define de la forma 0\le R^2\overset{\text{def}}{=}(r)^2\le 1

Observación:
Notemos que el punto de coordenadas (\bar{x},\bar{y}) satisface por igual una y otra recta de regresión, y, por tanto, éste es el punto de intersección de las mismas.

Nota: Las ecuaciones de las rectas de regresión lineal se deducen imponiendo un criterio de mínima distancia al cuadrado de cada uno de los puntos de la nube al punto sobre dicha recta que tiene la misma abscisa que el punto dado, pero ello se estudia en el Bachillerato. En este curso ( 4.º de ESO ), nos limitamos a aplicar estos resultados.

-oOo-

Calcular la recta de regresión lineal de Y sobre X con ayuda de una calculadora científica básica ( del tipo Casio fx82 MS ) es rápido y sencillo: primero hay poner la calculadora en el modo adecuado ( MODE REG(3) - > LIN(1) ), y a continuación hay que introducir los datos de la siguiente forma:
x_1,y_1;n_1 M+
x_2,y_2;n_2 M+
...
x_k,y_k;n_k M+
Hecho ésto, basta con consultar los resultados:
S-VAR -> -> 1
A(1),B(2),r(3)
De manera que la recta pedida, en forma explícita, vendrá dada por y=Bx+A, pudiendo saber también el valor de r ( el coeficiente de correlación de Pearson )

Ejemplo:

Seleccionando el modo de cálculo de regresión ( MODE 3 ) de la calculadora científica básica y, a continuación, el ajustes lineal ( 1), e introduciendo los puntos (x,y):
1,0;1 M+
3,2;1 M+
4,4;1 M+
5,4;1 M+
5,6;1 M+
ya podemos pasar a consultar el valor de los coeficientes A y B de la recta de regresión lineal de Y sobre X, así como el coeficiente de correlación de Pearson r: ( S-VAR -> -> 1,2,3 ), obteniendo los siguientes valores (aproximando a las diezmilésimas):
A=-1,4286 B=1,2857 y r=0,9435 Así pues, la recta de regresión lineal de Y sobre X es y=1,2857\,x-1,4286

Nota: El coeficiente de determinación R^2, que se suele expresar en tanto por ciento, es aquí, del 89\,\%

Por otra parte, el valor estimado de y ( que denotaremos por \hat{y} ) para x=2, se calcula haciendo uso del modelo de ajuste por regresión, sustituyendo x por el valor 2 1,2857\cdot 2-1,4286=1,1429 y puede calcularse también con la calculadora, directamente, tecleando S-VAR -> -> -> 2 obteniendo \hat{y}=1,1429

El siguiente gráfico muestra la nube de puntos y la recta de regresión lineal de Y sobre X pedida

\square

lunes, 28 de mayo de 2018

Un ejercicio básico de agrupación de valores de una variable estadística en intervalos

ENUNCIADO.

SOLUCIÓN.
Observemos que el número de valores es N=6\cdot 6+2=38 ( están dispuestos en un rectángulo de 6 filas por 6 columnas, más otros dos valores en una séptima fila ); así pues el número de intervalos, n_c, de agrupación que tomaremos es el entero más próximo a |\sqrt{N}|, esto es n_c=6. Establecemos que todos los intervalos tengan la misma longitud, \ell, que será igual al entero por exceso que aproxima a \dfrac{\text{rango}}{n_c}, esto es \dfrac{|x_{\text{máx}}-x_{\text{mín}}|}{n_c}=\dfrac{|79-52|}{6}\approx 5.

El extremo inferior del primer intervalo lo establecemos de la siguiente forma e_{1}^{\text{inf}}=x_{\text{mín}}-\dfrac{n_c\cdot \ell - \text{rango}}{2} que nos da un valor de e_{1}^{\text{inf}}=52-\dfrac{6\cdot 5 - 27}{2}=50'5

Así pues, los 6 intervalos de agrupación son: [50'5\,,\,55'5), [55'5\,,\,60'5), [60'5\,,\,65'5), [65'5\,,\,70'5), [70'5\,,\,75'5) y [75'5\,,\,80'5)

La agrupación de los valores queda como sigue:

----------------------------
----------------------------
i | intervalo   | n_i  | N_i
----------------------------
1 | [50'5,55'5) |  5   |  5
----------------------------
2 | [55'5,60'5) |  5   | 10
----------------------------
1 | [60'5,65'5) |  8   | 18
----------------------------
1 | [65'5,70'5) | 11   | 29
----------------------------
1 | [70'5,75'5) |  5   | 34
----------------------------
1 | [75'5,80'5) |  4   | 38
----------------------------


Nota:
Para hacer el recuento con comodidad, puede ser de utilidad elaborar el diagrama de tallo y hojas:

5| 7 4 2 9 8 5 5 4 7
6| 8 7 0 2 9 3 1 5 7 4 6 7 4 6 9 1 4 8 
7| 4 5 4 7 9 1 0 8 0 8 3

y ordenando el dígito de las decenas:
5| 2 4 4 5 5 7 7 8 9
6| 0 1 1 2 3 4 4 4 5 6 6 7 7 7 8 8 9 9 
7| 0 0 1 3 4 4 5 7 8 8 9


\square

miércoles, 9 de mayo de 2018

Diagramas de red

En este ejemplo, adecuado para utilizar un diagrama de red, se representan las notas de cuatro alumnos en cuatro asignaturas.

Estadística descriptiva unidimensional. Valores atípicos

Sea un valor k de una variable estadística X. Convendremos que dicho valor es atípico si k\succ Q_3 + 1,5\cdot RIQ o bien si k \prec Q_1-1,5\cdot \text{RIQ}, donde el rango intercuartílico \text{RIQ} se define como |Q_3-Q_1|

Ejemplo:
ENUNCIADO. En una distribución estadística de una cierta variable estadística X se sabe que el rango intercuartílico es 10 y que el valor del tercer cuartil es 15. Sea un cierto valor de la variable estadística, que es 31. Justifíquese el hecho de que dicho valor sea atípico.

SOLUCIÓN
Observemos que Q_3+1,5 \cdot \text{RIQ}=15+1,5\cdot 10=15+15=30 \prec 31, luego 31 es un valor atípico.

Nota: Los valores atípicos se representan con un asterisco en el diagrama de caja y bigotes

\square