Agrupar#

Las operaciones de agrupación suelen ser relevantes para analizar el comportamiento de los datos. En este caso, pandas regresa una ‘serie’ de datos con la información agrupada, por columna, de acuerdo con el criterio que nosotros consideremos relevante.

Por ejemplo, podemos agrupar nuestros datos por sexo y obtener un conteo de los valores:

muestra_covid.groupby('sexo').count()
Unnamed: 0 edad entidad_nacimiento municipio_residencia indigena nacionalidad migrante pais_nacionalidad fecha_ingreso fecha_sintomas fecha_def
sexo
HOMBRE 589510 589510 589510 74140 589510 589510 589510 589510 589510 589510 2106
MUJER 733991 733991 733991 75567 733991 733991 733991 733991 733991 733991 1483

El resultado es un conteo que nos indica cuántos valores coinciden con la etiqueta 'HOMBRE' y cuántos con 'MUJER'.

Con valores numéricos, podemos realizar otras operaciones, por ejemplo, la media de edad:

muestra_covid.groupby('sexo').edad.mean()
sexo
HOMBRE    36.978482
MUJER     38.362363
Name: edad, dtype: float64

El resultado nos muestra la media de edad de los hombres y de las mujeres en todo nuestro conjunto de datos.

Igualmente lo podemos hacer con otras categorías. Por ejemplo:

muestra_covid.groupby('indigena').edad.mean()
indigena
NO                 37.717849
NO ESPECIFICADO    37.973184
SI                 39.989405
Name: edad, dtype: float64

groupby() es una función muy útil y rápida para describir la información que tenemos, especialmente si es un conjunto de datos bastante grande.