# Describir la fuente de datos con la función `describe()`

[Previamente vimos cómo identificar los tipos de datos de pandas con el método `dtypes`](../S2-estructuras-preparacion/S2P4-dtypes.md). Ahora veremos un método muy sencillo para 'describir' de manera muy preliminar lo que podemos hacer con nuestra fuente de datos.

## La función describe()

De acuerdo con la [documentación de pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html?highlight=describe#pandas.DataFrame.describe), la función `describe()` realiza una descripción estadística de nuestros datos. Incluye aquellos "que resumen las medidas de tendenca central, dispersión y forma de una fuente de datos, descartando los valores nulos (`NaN`)".

Esta es una función muy sencilla de utilizar y a la vez muy poderosa, puesto que puede realizar sus análisis tanto en valores numéricos como de objeto, incluso de datos mixtos.

Veámos qué sucede cuando utilizamos nuestra fuente de datos de ejemplo.

In [1]:
import pandas as pd

ejemplo1 = pd.DataFrame(
    {"Nombre": ["Andrea", "Berenice", "Carlos"], # tipo de datos string
    "Edad": [34, 51, 26], # tipo de datos int
    "Registro": [True, False, True], # tipo de datos bool
    "Promedio": [9.5, 8.5, 10], # tipo de datos float
    "Origen": [
        {"Ciudad": "Ciudad de México", "Estado": "CDMX"}, 
        {"Ciudad": "Guadalajara", "Estado": "Jalisco"}, 
        {"Ciudad": "Toluca", "Estado": "Estado de México"}
        ], # tipo de datos dict 
    "Calificaciones": [(9, 8, 10), (8, 7, 9), (7, 6, 8)] # tipo de datos tuple
    })

ejemplo1.describe()

Unnamed: 0,Edad,Promedio
count,3.0,3.0
mean,37.0,9.333333
std,12.767145,0.763763
min,26.0,8.5
25%,30.0,9.0
50%,34.0,9.5
75%,42.5,9.75
max,51.0,10.0


Vemos cómo `pandas` selecciona las dos columnas numéricas ('Edad' y 'Promedio') para hacer la descripción del dataframe. Las operaciones resultantes son el conteo de los valores, la media, la desviación estándar, el valor mínim y el valor máximo, sí como el percentil bajo (25) y el percentil alto (75). El percentil 50 es igual que la mediana.

Si queremos obtener una descripción más amplia, que incluya todas las columnas sin importar su tipo de datos, simplemente añadimos el argumento `include='all'`:

In [2]:
ejemplo1.describe(include='all')

Unnamed: 0,Nombre,Edad,Registro,Promedio,Origen,Calificaciones
count,3,3.0,3,3.0,3,3
unique,3,,2,,3,3
top,Andrea,,True,,"{'Ciudad': 'Ciudad de México', 'Estado': 'CDMX'}","(9, 8, 10)"
freq,1,,2,,1,1
mean,,37.0,,9.333333,,
std,,12.767145,,0.763763,,
min,,26.0,,8.5,,
25%,,30.0,,9.0,,
50%,,34.0,,9.5,,
75%,,42.5,,9.75,,


Vemos que en este caso incluye otros valores como `top`, que corresponde al valor más común; `unique` que representa la cantidad de valores únicos, y `freq` que representa la fecuencia del valor más común. Para los valores de timestamp también serán mostrados el primer y último valor.

Ahora realicemos el ejercicio con nuestra fuente de datos de ejemplo.

In [3]:
try:
  covid_nacional = pd.read_csv('../data/casos_nacionales_covid-19_2022_semestre1.csv')
except FileNotFoundError:
  covid_nacional = pd.read_csv('../datos/casos_nacionales_covid-19_2022_semestre1.csv')

  exec(code_obj, self.user_global_ns, self.user_ns)


In [4]:
import pandas as pd
covid_nacional.describe()

Unnamed: 0.1,Unnamed: 0,edad
count,1323501.0,1323501.0
mean,661751.0,37.74596
std,382062.0,17.28453
min,1.0,0.0
25%,330876.0,25.0
50%,661751.0,36.0
75%,992626.0,50.0
max,1323501.0,122.0


Al igual que en nuestro dataframe de ejemplo, `pandas` solamente selecciona los valores numéricos: `Unnamed: 0` (que corresponde al índice de los datos) y `edad`. Veámos ahora qué información nos muestra cuando incluímos el parámetro `include='all'`.

In [5]:
covid_nacional.describe(include='all')

Unnamed: 0.1,Unnamed: 0,fecha_actualizacion,id_registro,origen,sector,entidad_um,sexo,entidad_nac,entidad_res,municipio_res,...,otro_caso,toma_muestra_lab,resultado_lab,toma_muestra_antigeno,resultado_antigeno,clasificacion_final,migrante,pais_nacionalidad,pais_origen,uci
count,1323501.0,1323501,1323501,1323501,1323501,1323501,1323501,1323501,149707,149707,...,1323501,1323501,1323501,1323501,1323501,1323501,1323501,1323501,1320040,1323501
unique,,1,1323501,2,12,32,2,33,23,1190,...,3,2,5,2,3,7,3,122,1,4
top,,2022-06-26,0793b8,FUERA DE USMER,SSA,CIUDAD DE MÉXICO,MUJER,CIUDAD DE MÉXICO,MÉXICO,NEZAHUALCÓYOTL,...,NO,NO,NO APLICA (CASO SIN MUESTRA),SI,NEGATIVO A SARS-COV-2,NEGATIVO A SARS-COV-2,NO ESPECIFICADO,MÉXICO,NO APLICA,NO APLICA
freq,,1323501,1,1170267,793606,1314661,733991,1052272,133374,26282,...,848434,1152385,1152385,1204565,771647,792364,1305180,1304673,1320040,1297093
mean,661751.0,,,,,,,,,,...,,,,,,,,,,
std,382062.0,,,,,,,,,,...,,,,,,,,,,
min,1.0,,,,,,,,,,...,,,,,,,,,,
25%,330876.0,,,,,,,,,,...,,,,,,,,,,
50%,661751.0,,,,,,,,,,...,,,,,,,,,,
75%,992626.0,,,,,,,,,,...,,,,,,,,,,


Como vemos es una tabla con todas las columnas de nuestro dataframe. Reliza una revisión rápida del resultado para que puedas observar algunos detalles del conjunto de datos que podrían ser útiles. Por ejemplo, es claro que en la columna `sexo` es mayor la frecuencia de casos en mujeres (733,991 casos sobre 1'323,501). También, si vemos la columna `entidad_nac` vemos que de las 33 entidades nacionales incluidas, la mayor frecuencia (por mucho) está representada por casos de la Ciudad de México (1'052,272 del total de los casos).

Para mejorar la legibilidad, podemos segmentar la descripción por unas cuantas columnas, por ejemplo:

In [6]:
covid_nacional[['origen', 'sector', 'sexo', 'entidad_nac', 
       'tipo_paciente', 'fecha_ingreso', 'fecha_sintomas', 'fecha_def']].describe(include='all')

Unnamed: 0,origen,sector,sexo,entidad_nac,tipo_paciente,fecha_ingreso,fecha_sintomas,fecha_def
count,1323501,1323501,1323501,1323501,1323501,1323501,1323501,3589
unique,2,12,2,33,2,177,223,166
top,FUERA DE USMER,SSA,MUJER,CIUDAD DE MÉXICO,AMBULATORIO,2022-01-12,2022-01-10,2022-01-29
freq,1170267,793606,733991,1052272,1297093,40197,46175,101


En este caso, podemos incluso narrar un poco nuestros datos, ya que encontramos que la mayoría de pacientes fueron ambulatorios, mujeres, de la Ciudad de México, que la mayor parte de reportes provienen de unidades por fuera de las USMER (Unidades de Salud Monitoras de Enfermedad Respiratoria Viral). También podemos afirmar que la mayoría de los reportes de síntomas se dieron el 10 de enero, la mayoría de ingresos el 12 de enero y la mayor cantidad de defunciones el 29 de enero.

Como habrás notado, todavía estamos en una fase muy descriptiva. Esto nos permite tener una perspectiva de lo que podemos obtener de nuestro conjunto de datos, lo que nos facilitará la tarea de planear qué transformaciones requeriremos en nuestros datos para poderlos visualizar correctamente.

## Actividad

Usando el método `describe()` analiza los datos que seleccionaste y responde en el [foro](https://github.com/MOOC-UNAM-Publico/curso-datos/discussions/new?category=actividades&title=Actividad%20descripción%20con%20ddescribe&body=El%20contenido%20de%20tu%20%20actividad) lo siguiente:

- ¿Qué columnas brindan información significativa para analizar?
- ¿Qué te gustaría descubrir de tu fuente de datos?
- ¿Es suficiente con tu fuente de datos? ¿Necesitas una fuente de datos adicional?

Responder estas preguntas te ayudará a entender tu fuente de datos y qué puedes lograr con ella.