|
| 1 | +--- |
| 2 | +title: Análisis descriptivo de datos. Regresión |
| 3 | +date: 2024-01-08 8:00:00 +0800 |
| 4 | +categories: [Estadística] |
| 5 | +tags: [Estadística, Regresión, Análisis] |
| 6 | +math: true |
| 7 | +--- |
| 8 | + |
| 9 | +# Análisis descriptivo de datos. Regresión. |
| 10 | + |
| 11 | +El objetivo es extraer y presentar información a partir de un conjunto de datos mediante tablas, gráficas y descriptores numéricos, es decir, conjunto de técnicas orientadas a la descripción numérica de un conjunto de individuos. |
| 12 | + |
| 13 | +Si seleccionamos a una empresa y vemos todos los servicios que ofrece, estos servicios los podríamos describir con parámetros y si seleccionamos un conjunto de servicios (muestra), los describiríamos con datos estadísticos. |
| 14 | + |
| 15 | +| Servicio | Parámetro 1 | Parámetro 2 | Parámetro 3 | |
| 16 | +|-----------------|-------------|-------------|-------------| |
| 17 | +| Servicio 1 | Valor 1 | Valor 2 | Valor 3 | |
| 18 | +| Servicio 2 | Valor 4 | Valor 5 | Valor 6 | |
| 19 | +| Servicio 3 | Valor 7 | Valor 8 | Valor 9 | |
| 20 | +| Servicio 4 | Valor 10 | Valor 11 | Valor 12 | |
| 21 | + |
| 22 | +### Tipos de variables |
| 23 | + |
| 24 | +Una variable es la característica de la muestra o servicio que se esta observando y que vería entre los diferencies datos obtenidos del estudio. |
| 25 | + |
| 26 | +* **Cualitativas** No son medibles numéricamente. Ej: El sexo, estado civil, satisfacción del cliente, calidad del servicio, etc. |
| 27 | + |
| 28 | +Dentro de estas podemos distinguir dos tipos: |
| 29 | + |
| 30 | + * **Nominales** No existe ordenación entre sus valores. Ej: Departamentos, tipos de producto/servicio |
| 31 | + |
| 32 | + * **Ordinales** Existe una ordenación de sus valores. Ej: Nivel de satisfacción del empleado, calidad del equipo de trabajo, etc. |
| 33 | + |
| 34 | +* **Cuantitativas** Son medibles numéricamente. Ej: La edad, número de servicios, altura, distancias, etc. |
| 35 | + |
| 36 | +Dentro de estas podemos distinguir dos tipos: |
| 37 | + |
| 38 | + * **Discretas** Tienen una cantidad finita de valores. Ej: Número de departamentos, cantidad de productos defectuosos, horas de formación impartida a empleados, etc. |
| 39 | + |
| 40 | + * **Continuas** Tienen una cantidad no-finita de valores. Ej: Ingresos mensuales, temperatura de los servidores en la empresa, tiempo de procesamiento de una orden/petición de un cliente, etc. |
| 41 | + |
| 42 | +## Tabla de frecuencias. |
| 43 | + |
| 44 | +Representa el número o fracción de veces que aparece cada posible valor de la variable. |
| 45 | + |
| 46 | +> Tabla de frecuencia de la distribución de los recursos económicos de una empresa. |
| 47 | +
|
| 48 | +| Departamento | Ventas | Recursos Humanos | Producción | Contabilidad | Marketing | |
| 49 | +|---------------------|--------|------------------|------------|--------------|-----------| |
| 50 | +| Frec. Absoluta | 45 | 10 | 25 | 5 | 15 | |
| 51 | +| F.A. Acumulada | 45 | 55 | 80 | 85 | 100 | |
| 52 | +| Frec. Relativa | 0.45 | 0.10 | 0.25 | 0.05 | 0.15 | |
| 53 | +| F.R. Acumulada | 0.45 | 0.55 | 0.80 | 0.85 | 1 | |
| 54 | + |
| 55 | +**Frecuencia Absoluta (Frec. Absoluta)** Es el número todal de observacions que pertenece a una categoria específica, en este caso representa la cantida de recursos económicos en base a un todal de 100 que se destina a cada departamente. |
| 56 | + |
| 57 | +**Frecuencia Absoluta Acumulada (F.A Acumulada)** Es la suma actual de las frecuencias absolutas hasta cierto punto de la distribución. |
| 58 | + |
| 59 | +**Frecuencia Relativa (Frec. Relativa)** Es la porcion de observaciones en una categoria especifica en relacion al numero de observaciones, o en este caso a la cantidad de recursos económicos. |
| 60 | + |
| 61 | +**Frecuenca Relativa Acumulada (F.R. Acumulada)** Es la suma actual de las frecuencias relativas hasta cierto punto de la distribución. |
| 62 | + |
| 63 | +> NOTA: Siempre el ultimo valor de las F.A Acumuladas y F.A Relativas tiene que ser 100 y 1, respectivamente. |
| 64 | +
|
| 65 | +Las variables se denotan con letras mayúsculas **$X$**, **$Y$** etc., y sus valores por letras minúsculas **$x$**, **$y$** ... |
| 66 | + |
| 67 | +La frecuencia absoluta de un valor **$x_i$** se denota por **$n_i$**, y la acumulada por **$N_i$**. |
| 68 | + |
| 69 | +La frecuencia relativa se escribe **$f_i$**, y la acumulada **$F_i$**. |
| 70 | + |
| 71 | +Las F.A. Acumuladas y las F.R. Acumulada proporcionan una visión global de la distribución de los datos, lo que facilita la comprensión de la distribución total de las observaciones y proporciones en una tabla de frecuencias. |
| 72 | + |
| 73 | +## Representaciones gráficas. |
| 74 | + |
| 75 | +Presentan de forma fiable y rápida la información contenida en un conjunto de datos. Estos datos se tiene que representar de una forma correcta ya que pueden transmitir información errónea o pueden manipular a los usuarios. |
| 76 | + |
| 77 | +### Diagrama de Barras |
| 78 | + |
| 79 | +Muestra un rectángulo por cada valor de la variable, con altura igual a su frecuencia. |
| 80 | + |
| 81 | + |
| 82 | + |
| 83 | +### Diagrama de Sectores |
| 84 | + |
| 85 | +Muestra un círculo con un sector por cada valor de ángulo proporcional a su frecuencia. |
| 86 | + |
| 87 | + |
| 88 | + |
| 89 | +## Características de una variable estadística. |
| 90 | + |
| 91 | +### Media Aritmética |
| 92 | + |
| 93 | +La media aritmética $\bar{x}$ es la suma de todos los valores de la distribución dividida por el número total de datos: |
| 94 | + |
| 95 | + |
| 96 | +$$\bar{x} = \frac{\sum_{k=1}^n x_i}{N} $$ |
| 97 | + |
| 98 | +$$\bar{x} = \sum_{k=1}^n \frac{x_i * n_i}{N} $$ |
| 99 | + |
| 100 | + |
| 101 | +| Departamento (**$x_i$**) | Ventas (5 secciones) | Recursos Humanos (2 secciones) | Producción (3 secciones) | Contabilidad (1 secciones) | Marketing (3 secciones) | |
| 102 | +|----------------------------|----------------------|--------------------------------|--------------------------|----------------------------|-------------------------| |
| 103 | +| Frec. Absoluta (**$n_i$**) | 45 | 10 | 25 | 5 | 15 | |
| 104 | + |
| 105 | +$\bar{x} = \sum_{k=1}^n \frac{x_i * n_i}{N} $ => $$\bar{x} = \frac{(5*45)+(2*10)+(3*25)+(1*5)+(3*15)}{45+10+25+5+15} $$ => $$\bar{x} = \frac{370}{100}$$ => $$\bar{x} = 3,75$$ |
| 106 | + |
| 107 | +La media artimética tiene ventajas y desventajas, entre las ventajas podemos destacar que tiene en cuenta todos los valroes de la distribución, es facil de calcular y es única. En cambio las desventajas son que tiende a equilibrar valores, es sensible a valores externos como subidas y bajadas, poco representativa cuando hay mucha dispersion de los datos. |
| 108 | + |
| 109 | +### Moda |
| 110 | + |
| 111 | +La moda es aquel valor de la variable que más veces se repite |
| 112 | + |
| 113 | +* Si la distribución es NO agrupada en intervalos, se observa la columna de frecuencias absolutas y el valor de la distribución al que corresponde la mayor frecuencia será la moda (no tiene por qué ser única) |
| 114 | + |
| 115 | +* Si la distribución es agrupada en intervalos, simplemente damos el intervalo de mayor frecuencia |
| 116 | + |
| 117 | +| $x_i$ | 0 | 1 | 2 | 3 | |
| 118 | +|-------|---|---|---|---| |
| 119 | +| $n_i$ | 0 | 1 | 2 | 3 | |
| 120 | + |
| 121 | +En este caso la moda es 2 |
| 122 | + |
| 123 | +> Siempre nos fijaremos en $n_i$, si la distribución esta agrupada en intervalos, claro está. |
| 124 | +
|
| 125 | +### Mediana |
| 126 | + |
| 127 | +En una distribución de frecuencias ordenada de menor a mayor, la mediana es aquel valor de la distribución que deja a su izquierda y a su derecha la misma proporcion de valors de la distribución. |
| 128 | + |
| 129 | +Si hay un número impar de valores, es aquel que ocupa lo posición central: |
| 130 | + |
| 131 | +0 0 1 2 3 3 3 3 4 5 5 -> Mediana = 3 |
| 132 | + |
| 133 | +Si hay un número par de valores, es la media aritmética de lso dos valores centrales: |
| 134 | + |
| 135 | +0 0 1 2 3 4 4 5 6 6 -> Mediana = 3.5 |
| 136 | + |
| 137 | +> Siempre nos fijaremos en $n_i$, si la distribución esta agrupada en intervalos, claro está. |
| 138 | +
|
| 139 | +### Cuantiles |
| 140 | + |
| 141 | + |
| 142 | + |
| 143 | + |
| 144 | + |
| 145 | +## Variables estadísticas bidimensionales y distribuciones de frecuencias. Independencia. |
| 146 | + |
| 147 | + |
| 148 | + |
| 149 | + |
| 150 | + |
| 151 | + |
| 152 | + |
| 153 | + |
| 154 | +## Regresión lineal y correlación. |
| 155 | + |
| 156 | + |
| 157 | + |
| 158 | + |
| 159 | + |
| 160 | + |
| 161 | + |
| 162 | + |
| 163 | + |
| 164 | + |
| 165 | + |
| 166 | + |
| 167 | + |
| 168 | + |
| 169 | + |
| 170 | + |
| 171 | + |
| 172 | + |
| 173 | + |
| 174 | + |
0 commit comments