Valor/Clase | Frecuencia (f) |
---|---|
La media es el promedio aritmético (suma ÷ cantidad), la mediana es el valor central cuando los datos están ordenados, y la moda es el valor más frecuente. Ejemplo: en [1,2,2,3,10], media=3.6, mediana=2, moda=2. Cada medida tiene ventajas: la media usa todos los valores, la mediana resist mejor los valores extremos, la moda muestra el valor típico.
Use la media para datos simétricos sin valores extremos, la mediana para datos sesgados o con outliers (ingresos, precios de viviendas), y la moda para datos categóricos o cuando necesite el valor más típico. En distribuciones normales, las tres son similares. En distribuciones sesgadas, difieren significativamente.
El rango (máximo - mínimo) mide la dispersión total de los datos. Es fácil de calcular pero sensible a valores extremos. Un solo outlier puede hacer que el rango sea engañoso. Para mejor medida de dispersión, considere la desviación estándar o el rango intercuartílico, que son más robustos.
Valores repetidos: afectan la moda (pueden crear multiple modas) pero no la media/mediana. Valores faltantes: exclúyalos del cálculo o use técnicas de imputación (reemplazar con media, mediana, o interpolación). Siempre reporte cuántos valores se excluyeron y por qué, ya que esto afecta la interpretación.
Los outliers son valores atípicamente altos o bajos. Afectan mucho la media y el rango, moderadamente la desviación estándar, y poco la mediana y moda. Para identificarlos: valores >Q3+1.5×IQR o