Agrupar
Agrupar#
Las operaciones de agrupación suelen ser relevantes para analizar el comportamiento de los datos. En este caso, pandas
regresa una ‘serie’ de datos con la información agrupada, por columna, de acuerdo con el criterio que nosotros consideremos relevante.
Por ejemplo, podemos agrupar nuestros datos por sexo
y obtener un conteo de los valores:
muestra_covid.groupby('sexo').count()
Unnamed: 0 | edad | entidad_nacimiento | municipio_residencia | indigena | nacionalidad | migrante | pais_nacionalidad | fecha_ingreso | fecha_sintomas | fecha_def | |
---|---|---|---|---|---|---|---|---|---|---|---|
sexo | |||||||||||
HOMBRE | 589510 | 589510 | 589510 | 74140 | 589510 | 589510 | 589510 | 589510 | 589510 | 589510 | 2106 |
MUJER | 733991 | 733991 | 733991 | 75567 | 733991 | 733991 | 733991 | 733991 | 733991 | 733991 | 1483 |
El resultado es un conteo que nos indica cuántos valores coinciden con la etiqueta 'HOMBRE'
y cuántos con 'MUJER'
.
Con valores numéricos, podemos realizar otras operaciones, por ejemplo, la media de edad:
muestra_covid.groupby('sexo').edad.mean()
sexo
HOMBRE 36.978482
MUJER 38.362363
Name: edad, dtype: float64
El resultado nos muestra la media de edad de los hombres y de las mujeres en todo nuestro conjunto de datos.
Igualmente lo podemos hacer con otras categorías. Por ejemplo:
muestra_covid.groupby('indigena').edad.mean()
indigena
NO 37.717849
NO ESPECIFICADO 37.973184
SI 39.989405
Name: edad, dtype: float64
groupby()
es una función muy útil y rápida para describir la información que tenemos, especialmente si es un conjunto de datos bastante grande.