|
1 | 1 | ---
|
2 | 2 | title: Análisis descriptivo de datos. Regresión
|
3 | 3 | date: 2024-01-08 8:00:00 +0800
|
4 |
| -categories: [Estadística] |
5 |
| -tags: [Estadística, Regresión, Análisis] |
| 4 | +categories: [Estadística, Regresión, Análisis] |
| 5 | +tags: [Estadística] |
6 | 6 | math: true
|
| 7 | +comments: false |
7 | 8 | ---
|
8 | 9 |
|
9 | 10 | # Análisis descriptivo de datos. Regresión.
|
@@ -56,7 +57,7 @@ Representa el número o fracción de veces que aparece cada posible valor de la
|
56 | 57 |
|
57 | 58 | **Frecuencia Absoluta Acumulada (F.A Acumulada)** Es la suma actual de las frecuencias absolutas hasta cierto punto de la distribución.
|
58 | 59 |
|
59 |
| -**Frecuencia Relativa (Frec. Relativa)** Es la porcion de observaciones en una categoria especifica en relacion al numero de observaciones, o en este caso a la cantidad de recursos económicos. |
| 60 | +**Frecuencia Relativa (Frec. Relativa)** Es la porción de observaciones en una categoría especifica en relación al numero de observaciones, o en este caso a la cantidad de recursos económicos. |
60 | 61 |
|
61 | 62 | **Frecuenca Relativa Acumulada (F.R. Acumulada)** Es la suma actual de las frecuencias relativas hasta cierto punto de la distribución.
|
62 | 63 |
|
@@ -138,21 +139,194 @@ Si hay un número par de valores, es la media aritmética de lso dos valores cen
|
138 | 139 |
|
139 | 140 | ### Cuantiles
|
140 | 141 |
|
| 142 | +Los cuantiles son valores de la variable que dividen a la distribución en un número determinado de partes iguales, es decir, en intervalos con igual frecuencia. |
141 | 143 |
|
| 144 | +Existen casso particulares de cuantiles: |
142 | 145 |
|
| 146 | +* **Cuartiles** Son los 3 valores de la variable ($Q_1$, $Q_2$, $Q_3$) que dividen la distribución en 4 partes iguales, cada una conteniendo el 25% de los valores de la variable. |
143 | 147 |
|
| 148 | +$$Q_i, i = 1,2,3 => \frac{N * i}{4}$$ |
| 149 | + |
| 150 | +* **Deciles** Son los 9 valores de la variable ($D_1$, $D_2$, $D_3$, ..., $D_9$) que dividen la distribución en 10 partes iguales, cada una conteniendo el 10% de los valores de la variable. |
| 151 | + |
| 152 | +$$D_i, i = 1,2,3,...,9 => \frac{N * i}{10}$$ |
| 153 | + |
| 154 | +* **Percentiles** Son los 99 valores de la variable ($P_1$, $P_2$, $P_3$, ..., $P_99$) que dividen la distribución en 100 partes iguales. |
| 155 | + |
| 156 | +$$P_i, i = 1,2,3,...,99 => \frac{N * i}{99}$$ |
| 157 | + |
| 158 | +Si la posición obtenida con las fórmulas anteriores no es un número entero, elegiremos el dato que se encuentra en la posición que se corresponde con el siguiente número entero. |
| 159 | + |
| 160 | +$$2,3 = 3$$ |
| 161 | + |
| 162 | +Si la posición obtenida con las fórmulas anteriores sí es un número entero, el cuantil lo calcularemos como la media del dato contenido en esa posición y el contenido de la posición siguiente |
| 163 | + |
| 164 | +### Medidas de dispersión absolutas |
| 165 | + |
| 166 | +Las medidas de dispersión absolutas son estadísticas que proporcionan información sobre la variabilidad o dispersión de un conjunto de datos sin tener en cuenta la dirección de las desviaciones con respecto a la media. Algunas de las más comunes son: |
| 167 | + |
| 168 | +* **Varianza** Es una medida que nos indica cuánto se alejan los datos de la media. Tenemos que tener en cuenta que la varianza no puede ser negativa, no queda afectada por cambios de origen pero si por cambios de escala. |
| 169 | + |
| 170 | +$$S^2 = \frac{1}{N} \sum_{i=1}^N (x_1 - \bar{x})^2 $$ |
| 171 | + |
| 172 | + |
| 173 | +* **Desviación típica** Nos da una idea de cuánto se dispersan los datos en torno a la media. Una desviación típica mayor indica una mayor dispersión de los datos, mientras que una desviación típica menor indica que los datos están más concentrados alrededor de la media. Se denota como σ (sigma) para poblaciones y ss (minúscula) para muestras. Tenemos que tener en cuenta que la varianza no puede ser negativa, no queda afectada por cambios de origen pero si por cambios de escala. |
| 174 | + |
| 175 | +$$S = \sqrt{S^2} $$ |
| 176 | + |
| 177 | +### Medidas de dispersión relativas |
| 178 | + |
| 179 | +Las medidas de dispersión relativas son estadísticas que proporcionan información sobre la variabilidad o dispersión de un conjunto de datos en relación a su tamaño. |
| 180 | + |
| 181 | +* **Coeficiente de Pearson** Representa el número de veces que $S$ contiene a $\bar{x}$, luego a mayor $V$, menor representatividad de $\bar{x}$ |
| 182 | + |
| 183 | +$$V= \frac{S}{\bar{x}}$$ |
| 184 | + |
| 185 | +Ejemplo: |
144 | 186 |
|
145 | 187 | ## Variables estadísticas bidimensionales y distribuciones de frecuencias. Independencia.
|
146 | 188 |
|
| 189 | +El valor de una variable puede influir sobre otra, al mismo tiempo si no influye y no existe una relacion se puede decir que son independientes y cuando su relacion es perfecta se dice que estan relacionadas funcionalmete o lo que es lo mismo: |
| 190 | + |
| 191 | +$$ y = f(x)$$ |
| 192 | + |
| 193 | +| X\Y | [0,2] | (2,4] | (4,6] | (6,8] | (8,10] | $n_x$ | |
| 194 | +|----------------------------|-------|-------|-------|-------|--------|-------| |
| 195 | +| Facebook | 8 | 5 | 8 | 3 | 2 | 26 | |
| 196 | +| TikTok | 5 | 9 | 3 | 0 | 0 | 17 | |
| 197 | +| YouTube | 5 | 3 | 5 | 0 | 0 | 13 | |
| 198 | +| Pinterest | 6 | 7 | 2 | 2 | 0 | 17 | |
| 199 | +| Instagram | 6 | 1 | 2 | 0 | 0 | 9 | |
| 200 | +| X | 3 | 6 | 3 | 1 | 0 | 13 | |
| 201 | +| Otra | 2 | 1 | 0 | 0 | 0 | 3 | |
| 202 | +| No estoy en redes sociales | 2 | 0 | 0 | 0 | 0 | 2 | |
| 203 | +| $n_y$ | 37 | 32 | 23 | 6 | 2 | 100 | |
| 204 | + |
| 205 | +### Distribución marginal |
| 206 | + |
| 207 | +La distribución marginal de $Y$ expresa cuantas veces se repite cada valor $y_i$ con independencia de que aparezca conjuntamente con otro valor y otro de $X$ |
| 208 | + |
| 209 | +| $Y$ | [0,2] | (2,4] | (4,6] | (6,8] | (8,10] | |
| 210 | +|----------------------------|-------|-------|-------|-------|--------| |
| 211 | +| $n_y$ | 37 | 32 | 23 | 6 | 2 | |
| 212 | + |
| 213 | +La distribución marginal de $X$ expresa cuantas veces se repite cada valor $y_i$ con independencia de que aparezca conjuntamente con otro valor y otro de $Y$ |
147 | 214 |
|
| 215 | +| X\Y | $n_x$ | |
| 216 | +|----------------------------|-------| |
| 217 | +| Facebook | 26 | |
| 218 | +| TikTok | 17 | |
| 219 | +| YouTube | 13 | |
| 220 | +| Pinterest | 17 | |
| 221 | +| Instagram | 9 | |
| 222 | +| X | 13 | |
| 223 | +| Otra | 3 | |
| 224 | +| No estoy en redes sociales | 2 | |
148 | 225 |
|
| 226 | +### Distribución condicionada |
149 | 227 |
|
| 228 | +La distribución condicional de $X$ dada $Y$ describe cómo se distribuyen los valores de $X$ para cada valor de $Y$. |
150 | 229 |
|
| 230 | +Distribución de $X$ condicionada a $Y:X\Y$ |
151 | 231 |
|
| 232 | +Distribución de $Y$ condicionada a $X:Y\X$ |
152 | 233 |
|
| 234 | +Ejemplo: |
| 235 | + |
| 236 | +Distribución $X\Y = (2,4]$ |
| 237 | + |
| 238 | +| X\Y | [0,2] | (2,4] | (4,6] | (6,8] | (8,10] | $X\Y = (2,4]$ | |
| 239 | +|----------------------------|-------|-------|-------|-------|--------|---------------| |
| 240 | +| Facebook | 8 | 5 | 8 | 3 | 2 | 5 | |
| 241 | +| TikTok | 5 | 9 | 3 | 0 | 0 | 9 | |
| 242 | +| YouTube | 5 | 3 | 5 | 0 | 0 | 3 | |
| 243 | +| Pinterest | 6 | 7 | 2 | 2 | 0 | 7 | |
| 244 | +| Instagram | 6 | 1 | 2 | 0 | 0 | 1 | |
| 245 | +| X | 3 | 6 | 3 | 1 | 0 | 6 | |
| 246 | +| Otra | 2 | 1 | 0 | 0 | 0 | 1 | |
| 247 | +| No estoy en redes sociales | 2 | 0 | 0 | 0 | 0 | 0 | |
| 248 | +| | | | | | | 32 | |
| 249 | + |
| 250 | +Distribución $Y\X = TikTok U Facebook$ |
| 251 | + |
| 252 | +| X\Y | [0,2] | (2,4] | (4,6] | (6,8] | (8,10] | | |
| 253 | +|-----------------------------|-------|-------|-------|-------|--------|----| |
| 254 | +| Facebook | 8 | 5 | 8 | 3 | 2 | | |
| 255 | +| TikTok | 5 | 9 | 3 | 0 | 0 | | |
| 256 | +| YouTube | 5 | 3 | 5 | 0 | 0 | | |
| 257 | +| Pinterest | 6 | 7 | 2 | 2 | 0 | | |
| 258 | +| Instagram | 6 | 1 | 2 | 0 | 0 | | |
| 259 | +| X | 3 | 6 | 3 | 1 | 0 | | |
| 260 | +| Otra | 2 | 1 | 0 | 0 | 0 | | |
| 261 | +| No estoy en redes sociales | 2 | 0 | 0 | 0 | 0 | | |
| 262 | +| $Y\X = TikTok U Facebook$ | 13 | 14 | 12 | 3 | 2 | 44 | |
| 263 | + |
| 264 | +### Independencia estadı́stica |
| 265 | + |
| 266 | +Dos variables $X$ e $Y$ son independientes estadı́sticamente cuando la frecuencia relativa conjunta es igual al producto de las frecuencias relativas marginales: |
| 267 | + |
| 268 | +$$\frac{n_xy}{N} = \frac{n_x}{N} X \frac{n_y}{N} =>$$ |
| 269 | + |
| 270 | +$$N X n_xy = n_x X n_y ∀(x , y)$$ |
| 271 | + |
| 272 | +Ejemplo A: |
| 273 | + |
| 274 | +$X:$ Número de hermanos |
| 275 | +$Y:$ Número de mascotas |
| 276 | + |
| 277 | +¿Son $X$ e $Y$ independientes? |
| 278 | + |
| 279 | +| X\Y | 0 | 1 | $n_x$ | |
| 280 | +|-------|----|----|-------| |
| 281 | +| 0 | 30 | 20 | 50 | |
| 282 | +| 1 | 18 | 12 | 30 | |
| 283 | +| 2 | 6 | 4 | 10 | |
| 284 | +| 3 | 6 | 4 | 10 | |
| 285 | +| $n_y$ | 60 | 40 | 100 | |
| 286 | + |
| 287 | +$N X n_xy = n_x X n_y ∀(x , y)$ |
| 288 | + |
| 289 | +* Par $(x_1, y_1): 100 * 30 = 50 * 60$ |
| 290 | +* Par $(x_1, y_2): 100 * 20 = 50 * 40$ |
| 291 | +* Par $(x_2, y_1): 100 * 18 = 30 * 60$ |
| 292 | +* Par $(x_2, y_2): 100 * 12 = 30 * 40$ |
| 293 | +* Par $(x_3, y_1): 100 * 6 = 10 * 60$ |
| 294 | +* Par $(x_3, y_2): 100 * 4 = 10 * 40$ |
| 295 | +* Par $(x_4, y_1): 100 * 6 = 10 * 60$ |
| 296 | +* Par $(x_4, y_2): 100 * 4 = 10 * 40$ |
| 297 | + |
| 298 | +Si $X$ e $Y$ son independientes. |
| 299 | + |
| 300 | +Ejemplo B: |
| 301 | + |
| 302 | +$X:$ Horas diarias de uso de la red social |
| 303 | +$Y:$ Nota media curso |
| 304 | + |
| 305 | +¿Son $X$ e $Y$ independientes? |
| 306 | + |
| 307 | +| X\Y | (0,5] | (5,7] | (7,9] | (9,10] | $n_x$ | |
| 308 | +|--------|-------|-------|-------|--------|-------| |
| 309 | +| (0,2] | 0 | 1 | 24 | 12 | 37 | |
| 310 | +| (2,4] | 0 | 17 | 14 | 1 | 32 | |
| 311 | +| (4,6] | 8 | 15 | 0 | 0 | 23 | |
| 312 | +| (6,8] | 6 | 0 | 0 | 0 | 6 | |
| 313 | +| (8,10] | 2 | 0 | 0 | 0 | 2 | |
| 314 | +| $n_y$ | 16 | 33 | 38 | 13 | 100 | |
| 315 | + |
| 316 | +$N X n_xy = n_x X n_y ∀(x , y)$ |
| 317 | + |
| 318 | +* Par $(x_1, y_1): 100 * 0 = 37 * 16$ |
| 319 | +* Par $(x_1, y_2): 100 * 1 != 32 * 33$ |
| 320 | +* No hay necesidad de seguir comprobando |
| 321 | + |
| 322 | +Si $X$ e $Y$ no son independientes. |
| 323 | + |
| 324 | + |
153 | 325 |
|
154 | 326 | ## Regresión lineal y correlación.
|
155 | 327 |
|
| 328 | +### Covarianza |
| 329 | + |
156 | 330 |
|
157 | 331 |
|
158 | 332 |
|
|
0 commit comments