Agrupar#

Las operaciones de agrupación suelen ser relevantes para analizar el comportamiento de los datos. En este caso, pandas regresa una ‘serie’ de datos con la información agrupada, por columna, de acuerdo con el criterio que nosotros consideremos relevante.

Por ejemplo, podemos agrupar nuestros datos por sexo y obtener un conteo de los valores:

muestra_covid.groupby('sexo').count()

	Unnamed: 0	edad	entidad_nacimiento	municipio_residencia	indigena	nacionalidad	migrante	pais_nacionalidad	fecha_ingreso	fecha_sintomas	fecha_def
sexo
HOMBRE	589510	589510	589510	74140	589510	589510	589510	589510	589510	589510	2106
MUJER	733991	733991	733991	75567	733991	733991	733991	733991	733991	733991	1483

El resultado es un conteo que nos indica cuántos valores coinciden con la etiqueta 'HOMBRE' y cuántos con 'MUJER'.

Con valores numéricos, podemos realizar otras operaciones, por ejemplo, la media de edad:

muestra_covid.groupby('sexo').edad.mean()

sexo
HOMBRE    36.978482
MUJER     38.362363
Name: edad, dtype: float64

El resultado nos muestra la media de edad de los hombres y de las mujeres en todo nuestro conjunto de datos.

Igualmente lo podemos hacer con otras categorías. Por ejemplo:

muestra_covid.groupby('indigena').edad.mean()

indigena
NO                 37.717849
NO ESPECIFICADO    37.973184
SI                 39.989405
Name: edad, dtype: float64

groupby() es una función muy útil y rápida para describir la información que tenemos, especialmente si es un conjunto de datos bastante grande.

Visualización de datos educativos abiertos

Agrupar

Agrupar#