lunes, 26 de octubre de 2009

Medidas de tendencia central

Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización.


Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que esta esté más o menos centrada, se habla de estas medidas como medidas de posición. En este caso se incluyen también los cuantiles entre estas medidas.

Entre las medidas de tendencia central tenemos:

La media aritmética es el valor obtenido sumando todas las observaciones y dividiendo el total por el número de observaciones que hay en el grupo.

La media resume en un valor las características de una variable teniendo en cuenta todos los casos. Solamente puede utilizarse con variables cuantitativas.

Por ejemplo, las notas de 5 alumnos en una prueba:

Alumno   Nota
1 6,0 ·Primero, se suman las notas:
2 5,4 6,0+5,4+3,1+7,0+6,1 = 27,6
3 3,1 ·Luego el total se divide entre la cantidad de alumnos:
4 7,0 27,6/5=5,52
5 6,1 ·La media aritmética en este ejemplo es 5,52


La media aritmética es, probablemente, uno de los parámetros estadísticos más extendidos. Se le llama también promedio o, simplemente, media

Las principales propiedades de la media aritmética son:[3]


* Su cálculo es muy sencillo y en él intervienen todos los datos.

* Su valor es único para una serie de datos dada.

* Se usa con frecuencia para comparar poblaciones, aunque es más apropiado acompañarla de una medida de dispersión.

* Se interpreta como "punto de equilibrio" o "centro de masas" del conjunto de datos, ya que tiene la propiedad de equilibrar las desviaciones de los datos respecto de su propio valor:


*Es poco sensible a fluctuaciones muestrales, por lo que es un parámetro muy útil en inferencia estadística.

La moda es el dato más repetido, el valor de la variable con mayor frecuencia absoluta.[5] En cierto sentido la definición matemática corresponde con la locución "estar de moda", esto es, ser lo que más se lleva.

Su cálculo es extremadamente sencillo, pues sólo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.

Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5.

Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma frecuencia diremos que no hay moda.

Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.

Sus principales propiedades son:
  • Cálculo sencillo.
  • Interpretación muy clara.
  • Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos, por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de determinado sector social. Esto se conoce informalmente como "retrato robot"
La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que estos están ordenados de menor a mayor.[7] Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:

En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los anteriores:

1,1,1,1,1 1,2 2,2,3,3,4

se toma como media 1.5 = (1+2) /2

Existen métodos de cálculo más rápidos para datos más númerosos. Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de este, se obtiene un valor concreto por interpolación.



Medidas de posición para datos agrupados y no agrupados: cuartiles, deciles y percentiles
  1. INTRODUCCIÓN
  2. Las Medidas de Posición, también conocidas como Otras Medidas de Dispersión, son otras medidas o métodos que resultan ser más prácticos para precisar ciertas situaciones en las que se busca describir la variación o dispersión en un conjunto de datos.

  3. CUANTILES

Los cuantiles son medidas de posición que se determinan mediante un método que determina la ubicación de los valores que dividen un conjunto de observaciones en partes iguales.

Los cuantiles son los valores de la distribución que la dividen en partes iguales, es decir, en intervalos que comprenden el mismo número de valores. Cuando la distribución contiene un número alto de intervalos o de marcas y se requiere obtener un promedio de una parte de ella, se puede dividir la distribución en cuatro, en diez o en cien partes.

Los más usados son los cuartiles, cuando dividen la distribución en cuatro partes; los deciles, cuando dividen la distribución en diez partes y los centiles o percentiles, cuando dividen la distribución en cien partes. Los cuartiles, como los deciles y los percentiles, son en cierta forma una extensión de la mediana.

Para algunos valores u , se dan nombres particulares a los cuantiles, Q (u):

u

Q(u)

0.5

Mediana

0.25, 0.75

Cuartiles

0.1, ... , 0.99

Deciles

0.01, ..., 0.99

Centiles

CUARTILES

Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales.

Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos.

Datos Agrupados



Como los cuartiles adquieren su mayor importancia cuando contamos un número grande de datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia. La fórmula para el cálculo de los cuartiles cuando se trata de datos agrupados es la siguiente:

k= 1,2,3

Donde:

Lk = Límite real inferior de la clase del cuartil k

n = Número de datos

Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.

fk = Frecuencia de la clase del cuartil k

c = Longitud del intervalo de la clase del cuartil k

Si se desea calcular cada cuartil individualmente, mediante otra fórmula se tiene lo siguiente:

  • El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es decir, aquel valor de la variable que supera 25% de las observaciones y es superado por el 75% de las observaciones.

Fórmula de Q1, para series de Datos agrupados:




Donde:

L1 = limite inferior de la clase que lo contiene

P = valor que representa la posición de la medida

f1 = la frecuencia de la clase que contiene la medida solicitada.

Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.

Ic = intervalo de clase

  • El segundo cuartil Q2, (coincide, es idéntico o similar a la mediana, Q2 = Md), es el menor valor que es mayor que la mitad de los datos, es decir el 50% de las observaciones son mayores que la mediana y el 50% son menores.

Fórmula de Q2, para series de Datos agrupados:




Donde:

L1 = limite inferior de la clase que lo contiene

P = valor que representa la posición de la medida

f1 = la frecuencia de la clase que contiene la medida solicitada.

Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.

Ic = intervalo de clase

  • El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los datos, es decir aquel valor de la variable que supera al 75% y es superado por el 25% de las observaciones.

Fórmula de Q3, para series de Datos agrupados:



Donde:

L1 = limite inferior de la clase que lo contiene

P = valor que representa la posición de la medida

f1 = la frecuencia de la clase que contiene la medida solicitada.

Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.

Ic = intervalo de clase.

Otra manera de verlo es partir de que todas las medidas no son sino casos particulares del percentil, ya que el primer cuartil es el 25% percentil y el tercer cuartil 75% percentil.

Para Datos No Agrupados

Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:

- El primer cuartil:

Cuando n es par:



Cuando n es impar:



Para el tercer cuartil

Cuando n es par:



Cuando n es impar:


DECILES

Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez partes porcentualmente iguales. Son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son también un caso particular de los percentiles. Los deciles se denotan D1, D2,..., D9, que se leen primer decil, segundo decil, etc.

Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el aprovechamiento académico.

Datos Agrupados

Para datos agrupados los deciles se calculan mediante la fórmula.



k= 1,2,3,... 9

Donde:

Lk = Límite real inferior de la clase del decil k

n = Número de datos

Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.

fk = Frecuencia de la clase del decil k

c = Longitud del intervalo de la clase del decil k

Otra fórmula para calcular los deciles:

  • El cuarto decil, es aquel valor de la variable que supera al 40%, de las observaciones y es superado por el 60% de las observaciones.


El quinto decil corresponde a la mediana.



El noveno decil supera al 90% y es superado por el 10% restante.




Donde (para todos):

L1 = limite inferior de la clase que lo contiene

P = valor que representa la posición de la medida

f1 = la frecuencia de la clase que contiene la medida solicitada.

Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.

Ic = intervalo de clase.

Fórmulas Datos No Agrupados

Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:

Cuando n es par:

Cuando n es impar:

Siendo A el número del decil.

CENTILES O PERCENTILES

Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o clasificación de las personas cuando atienden características tales como peso, estatura, etc.

Los percentiles son ciertos números que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,..., percentil 99.

Datos Agrupados

Cuando los datos están agrupados en una tabla de frecuencias, se calculan mediante la fórmula:



k= 1,2,3,... 99

Donde:

Lk = Límite real inferior de la clase del decil k

n = Número de datos

Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.

fk = Frecuencia de la clase del decil k

c = Longitud del intervalo de la clase del decil k

Otra forma para calcular los percentiles es:

  • Primer percentil, que supera al uno por ciento de los valores y es superado por el noventa y nueve por ciento restante.




El 60 percentil, es aquel valor de la variable que supera al 60% de las observaciones y es superado por el 40% de las observaciones.




  • El percentil 99 supera 99% de los datos y es superado a su vez por el 1% restante.

Fórmulas Datos No Agrupados

Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:

Para los percentiles, cuando n es par:



Cuando n es impar:

Siendo A, el número del percentil.

Es fácil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil con el percentil 50 y el tercer cuartil con el percentil 75.

3. EJEMPLO

Determinación del primer cuartil, el séptimo decil y el 30 percentil, de la siguiente tabla:

Salarios

No. De

fa

(I. De Clases)

Empleados (f1)


200-299

85

85

300-299

90

175

400-499

120

295

500-599

70

365

600-699

62

427

700-800

36

463

Como son datos agrupados, se utiliza la fórmula



Siendo,


La posición del primer cuartil.



La posición del 7 decil.



La posición del percentil 30.

Entonces,

El primer cuartil:

115.5 – 85 = 30.75

Li = 300, Ic = 100 , fi = 90



El 7 decil:



Posición:

324.1 – 295 = 29.1

Li = 500, fi = 70


El percentil 30

Posición:


138.9 – 85 = 53.9

fi = 90


Estos resultados nos indican que el 25% de los empleados ganan salarios por debajo de $ 334; que bajo 541.57 gana el 57%de los empleados y sobre $359.88, gana el 70% de los empleados.

No hay comentarios:

Publicar un comentario