{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Actividad de avance del proyecto\n", "\n", "Después de realizar los ejercicios previos, es momento de incorporarlos a tu cuaderno de proyecto. Al finalizar, deberás tener un cuaderno de Google Colab similar a este:" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\"Open" ] }, { "cell_type": "markdown", "metadata": { "id": "H9FzFUrajfM7" }, "source": [ "# Importar datos\n", "\n", "Con \"importar datos\" nos referimos a la manera en la que preparamos la fuente de datos para ser leída por nuestro programa.\n", "\n", "Existen múltiples maneras de importar la información. Por ejemplo, podemos sencillamente utilizar el mismo método que usamos con nuestro archivo `ejemplo-1.txt`.\n", "\n", "Descarga el archivo que quieras utilizar en el directorio de Drive en el que vayas a almacenar tus datos.\n", "\n", "Como ejemplo, voy a utilizar los casos nacionales de COVID-19 registrados diariamente durante el primer semestre de 2022: https://datos.cdmx.gob.mx/dataset/casos-asociados-a-covid-19/resource/e5f65f40-5904-492a-ae33-1ea98fb73d78?inner_span=True\n", "\n", "Descargo el archivo CSV en un directorio de mi computadora. Posteriormente lo subo a mi directorio de datos de Google Drive:\n", "\n", "\n", "Volvemos a nuestro cuaderno de Google Colab. Me aseguro de haber activado Google Drive en mi Google Colab y busco el directorio en el cual está mi archivo. En mi caso: `'/content/drive/MyDrive/Colab Notebooks/curso_datos/casos_nacionales_covid-19_2022_semestre1.csv'`\n", "\n", "Con esos pasos, podemos hacer la importación:" ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "qnXNK7H2kz3M", "outputId": "03d7e0e8-b02b-4101-ce97-b23d2988f946" }, "outputs": [ { "data": { "text/plain": [ "['\"\",\"fecha_actualizacion\",\"id_registro\",\"origen\",\"sector\",\"entidad_um\",\"sexo\",\"entidad_nac\",\"entidad_res\",\"municipio_res\",\"tipo_paciente\",\"fecha_ingreso\",\"fecha_sintomas\",\"fecha_def\",\"intubado\",\"neumonia\",\"edad\",\"nacionalidad\",\"embarazo\",\"habla_lengua_indig\",\"indigena\",\"diabetes\",\"epoc\",\"asma\",\"inmusupr\",\"hipertension\",\"otra_com\",\"cardiovascular\",\"obesidad\",\"renal_cronica\",\"tabaquismo\",\"otro_caso\",\"toma_muestra_lab\",\"resultado_lab\",\"toma_muestra_antigeno\",\"resultado_antigeno\",\"clasificacion_final\",\"migrante\",\"pais_nacionalidad\",\"pais_origen\",\"uci\"\\n']" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "datos = '/content/drive/MyDrive/Colab Notebooks/curso_datos/casos_nacionales_covid-19_2022_semestre1.csv'\n", "\n", "with open(datos, 'r') as f:\n", " data = f.readlines(10) # agrego este argumento porque el archivo es muy extenso.\n", "\n", "data" ] }, { "cell_type": "markdown", "metadata": { "id": "LukLwOCkpa7t" }, "source": [ "De esta manera hemos logrado incluir el archivo en nuestro cuaderno, pero será muy complejo manipularlo. Por esta razón, es preferible utilizar una librería que nos ayude a procesar estos datos. En nuestro caso, usaremos 'pandas'\n", "\n", "Para hacer que nuestro programa funcione, solamente debemos importar la librería:\n", "\n", "`import pandas as pd`\n", "\n", "Y posteriormente podremos abrir nuestro archivo desde Python:" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 508 }, "id": "b4yv7auIqCt7", "outputId": "3ac77c6a-2684-44ed-9b18-f9fa480700b8" }, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "/usr/local/lib/python3.7/dist-packages/IPython/core/interactiveshell.py:2882: DtypeWarning: Columns (13) have mixed types.Specify dtype option on import or set low_memory=False.\n", " exec(code_obj, self.user_global_ns, self.user_ns)\n" ] }, { "data": { "text/html": [ "\n", "
\n", "
\n", "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
Unnamed: 0fecha_actualizacionid_registroorigensectorentidad_umsexoentidad_nacentidad_resmunicipio_res...otro_casotoma_muestra_labresultado_labtoma_muestra_antigenoresultado_antigenoclasificacion_finalmigrantepais_nacionalidadpais_origenuci
012022-06-260793b8FUERA DE USMERSSACIUDAD DE MÉXICOHOMBRECIUDAD DE MÉXICONaNNaN...NONONO APLICA (CASO SIN MUESTRA)SINEGATIVO A SARS-COV-2NEGATIVO A SARS-COV-2NO ESPECIFICADOMÉXICONO APLICANO APLICA
122022-06-260fef08USMERSSACIUDAD DE MÉXICOHOMBRECIUDAD DE MÉXICONaNNaN...NOSIPOSITIVO A SARS-COV-2NONO APLICA (CASO SIN MUESTRA)CASO DE SARS-COV-2 CONFIRMADONO ESPECIFICADOMÉXICONO APLICANO APLICA
232022-06-2611e31aFUERA DE USMERSSACIUDAD DE MÉXICOHOMBRECIUDAD DE MÉXICONaNNaN...NONONO APLICA (CASO SIN MUESTRA)SINEGATIVO A SARS-COV-2NEGATIVO A SARS-COV-2NO ESPECIFICADOMÉXICONO APLICANO APLICA
342022-06-260741e4FUERA DE USMERISSSTECIUDAD DE MÉXICOHOMBRECIUDAD DE MÉXICONaNNaN...NOSIRESULTADO NO ADECUADONONO APLICA (CASO SIN MUESTRA)NO REALIZADO POR LABORATORIONO ESPECIFICADOMÉXICONO APLICANO
452022-06-2613c92bFUERA DE USMERSSACIUDAD DE MÉXICOMUJERCIUDAD DE MÉXICONaNNaN...SINONO APLICA (CASO SIN MUESTRA)SINEGATIVO A SARS-COV-2NEGATIVO A SARS-COV-2NO ESPECIFICADOMÉXICONO APLICANO APLICA
\n", "

5 rows × 41 columns

\n", "
\n", " \n", " \n", " \n", "\n", " \n", "
\n", "
\n", " " ], "text/plain": [ " Unnamed: 0 fecha_actualizacion id_registro origen sector \\\n", "0 1 2022-06-26 0793b8 FUERA DE USMER SSA \n", "1 2 2022-06-26 0fef08 USMER SSA \n", "2 3 2022-06-26 11e31a FUERA DE USMER SSA \n", "3 4 2022-06-26 0741e4 FUERA DE USMER ISSSTE \n", "4 5 2022-06-26 13c92b FUERA DE USMER SSA \n", "\n", " entidad_um sexo entidad_nac entidad_res municipio_res ... \\\n", "0 CIUDAD DE MÉXICO HOMBRE CIUDAD DE MÉXICO NaN NaN ... \n", "1 CIUDAD DE MÉXICO HOMBRE CIUDAD DE MÉXICO NaN NaN ... \n", "2 CIUDAD DE MÉXICO HOMBRE CIUDAD DE MÉXICO NaN NaN ... \n", "3 CIUDAD DE MÉXICO HOMBRE CIUDAD DE MÉXICO NaN NaN ... \n", "4 CIUDAD DE MÉXICO MUJER CIUDAD DE MÉXICO NaN NaN ... \n", "\n", " otro_caso toma_muestra_lab resultado_lab \\\n", "0 NO NO NO APLICA (CASO SIN MUESTRA) \n", "1 NO SI POSITIVO A SARS-COV-2 \n", "2 NO NO NO APLICA (CASO SIN MUESTRA) \n", "3 NO SI RESULTADO NO ADECUADO \n", "4 SI NO NO APLICA (CASO SIN MUESTRA) \n", "\n", " toma_muestra_antigeno resultado_antigeno \\\n", "0 SI NEGATIVO A SARS-COV-2 \n", "1 NO NO APLICA (CASO SIN MUESTRA) \n", "2 SI NEGATIVO A SARS-COV-2 \n", "3 NO NO APLICA (CASO SIN MUESTRA) \n", "4 SI NEGATIVO A SARS-COV-2 \n", "\n", " clasificacion_final migrante pais_nacionalidad \\\n", "0 NEGATIVO A SARS-COV-2 NO ESPECIFICADO MÉXICO \n", "1 CASO DE SARS-COV-2 CONFIRMADO NO ESPECIFICADO MÉXICO \n", "2 NEGATIVO A SARS-COV-2 NO ESPECIFICADO MÉXICO \n", "3 NO REALIZADO POR LABORATORIO NO ESPECIFICADO MÉXICO \n", "4 NEGATIVO A SARS-COV-2 NO ESPECIFICADO MÉXICO \n", "\n", " pais_origen uci \n", "0 NO APLICA NO APLICA \n", "1 NO APLICA NO APLICA \n", "2 NO APLICA NO APLICA \n", "3 NO APLICA NO \n", "4 NO APLICA NO APLICA \n", "\n", "[5 rows x 41 columns]" ] }, "execution_count": 2, "metadata": {}, "output_type": "execute_result" } ], "source": [ "import pandas as pd\n", "\n", "covid_nacional = pd.read_csv(datos)\n", "covid_nacional.head()" ] }, { "cell_type": "markdown", "metadata": { "id": "Nu3Ce4XbqZ2J" }, "source": [ "De esta manera, nuestro archivo estará listo para ser procesado :)" ] }, { "cell_type": "markdown", "metadata": { "id": "zlne2GAtX-4M" }, "source": [ "# Análisis de estructuras de datos y preparación\n", "\n", "## Describe la fuente de datos\n", "\n", "Una descripción simple de la forma de la fuente de datos es la siguiente:" ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "blLldK-XYOqQ", "outputId": "b811a307-0863-4097-e60f-67a7b47730e6" }, "outputs": [ { "data": { "text/plain": [ "1323501" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# número de filas\n", "filas = covid_nacional.shape[0]\n", "filas" ] }, { "cell_type": "markdown", "metadata": { "id": "9tB3RFOpcszB" }, "source": [ "Esta es una fuente de datos con suficientes campos como para justificar una lectura distante de la información. Difícilmente una persona podría comprender la información que hay en ella solamente \"leyendo\" los datos de esas tablas." ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "9X7l8HuLdAvE", "outputId": "112bd8b5-fc0f-40b0-8ef6-81c84590838c" }, "outputs": [ { "data": { "text/plain": [ "41" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# número de columnas\n", "columnas = covid_nacional.shape[1]\n", "columnas" ] }, { "cell_type": "markdown", "metadata": { "id": "Jv469AOXdGvl" }, "source": [ "Además, vemos que es un conjunto de datos con una cantidad significativa de categorías. Esto permite que con una sola fuente de información se puedan realizar operaciones de comparación entre columnas para analizar la información." ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "4PUmMBdvda_-", "outputId": "f5a3a3fd-e12b-45ff-cebd-2c5e9f355e37" }, "outputs": [ { "data": { "text/plain": [ "Index(['Unnamed: 0', 'fecha_actualizacion', 'id_registro', 'origen', 'sector',\n", " 'entidad_um', 'sexo', 'entidad_nac', 'entidad_res', 'municipio_res',\n", " 'tipo_paciente', 'fecha_ingreso', 'fecha_sintomas', 'fecha_def',\n", " 'intubado', 'neumonia', 'edad', 'nacionalidad', 'embarazo',\n", " 'habla_lengua_indig', 'indigena', 'diabetes', 'epoc', 'asma',\n", " 'inmusupr', 'hipertension', 'otra_com', 'cardiovascular', 'obesidad',\n", " 'renal_cronica', 'tabaquismo', 'otro_caso', 'toma_muestra_lab',\n", " 'resultado_lab', 'toma_muestra_antigeno', 'resultado_antigeno',\n", " 'clasificacion_final', 'migrante', 'pais_nacionalidad', 'pais_origen',\n", " 'uci'],\n", " dtype='object')" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# nombre de las columnas\n", "covid_nacional.columns" ] }, { "cell_type": "markdown", "metadata": { "id": "Mbs9hsyUdjlA" }, "source": [ "El nombre de las columnas nos ayuda a identificar las categorías y posibles datos que contienen nuestra fuente de datos.\n", "\n", "No todas las fuentes de datos nombran sus columnas de manera significativa. En el caso de nuestro ejemplo, es bastante sencillo identificar qué tipo de información contiene cada categoría o columna, incluso qué tipo de dato sería deseable que tuviese cada una." ] }, { "cell_type": "markdown", "metadata": { "id": "rzqdf8zfd-qH" }, "source": [ "## Tipos de datos con `dtypes()`" ] }, { "cell_type": "code", "execution_count": 9, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "OrisVD9BeE4q", "outputId": "a1843899-f2ef-4225-f8dc-1dd4bbcb4ef9" }, "outputs": [ { "data": { "text/plain": [ "Unnamed: 0 int64\n", "fecha_actualizacion object\n", "id_registro object\n", "origen object\n", "sector object\n", "entidad_um object\n", "sexo object\n", "entidad_nac object\n", "entidad_res object\n", "municipio_res object\n", "tipo_paciente object\n", "fecha_ingreso object\n", "fecha_sintomas object\n", "fecha_def object\n", "intubado object\n", "neumonia object\n", "edad int64\n", "nacionalidad object\n", "embarazo object\n", "habla_lengua_indig object\n", "indigena object\n", "diabetes object\n", "epoc object\n", "asma object\n", "inmusupr object\n", "hipertension object\n", "otra_com object\n", "cardiovascular object\n", "obesidad object\n", "renal_cronica object\n", "tabaquismo object\n", "otro_caso object\n", "toma_muestra_lab object\n", "resultado_lab object\n", "toma_muestra_antigeno object\n", "resultado_antigeno object\n", "clasificacion_final object\n", "migrante object\n", "pais_nacionalidad object\n", "pais_origen object\n", "uci object\n", "dtype: object" ] }, "execution_count": 9, "metadata": {}, "output_type": "execute_result" } ], "source": [ "covid_nacional.dtypes" ] }, { "cell_type": "markdown", "metadata": { "id": "mYTidlIaeJeG" }, "source": [ "La mayoría de los datos se encuentran representados como tipo `object`, es decir, que son de tipo texto, numérico-textual o mixto.\n", "\n", "Aunque hay columnas que podrían tener un tipo de dato `datetime`, están representadas en tipo `object`. Esas columnas deberán ser transformadas para poder hacer operaciones y visualizaciones.\n", "\n", "## Descripción de los datos con `describe()`" ] }, { "cell_type": "code", "execution_count": 10, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 300 }, "id": "Xgau6A4jfIWY", "outputId": "bed8f8d3-0672-4dba-a76d-86e5ea8a5dba" }, "outputs": [ { "data": { "text/html": [ "\n", "
\n", "
\n", "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
Unnamed: 0edad
count1.323501e+061.323501e+06
mean6.617510e+053.774596e+01
std3.820620e+051.728453e+01
min1.000000e+000.000000e+00
25%3.308760e+052.500000e+01
50%6.617510e+053.600000e+01
75%9.926260e+055.000000e+01
max1.323501e+061.220000e+02
\n", "
\n", " \n", " \n", " \n", "\n", " \n", "
\n", "
\n", " " ], "text/plain": [ " Unnamed: 0 edad\n", "count 1.323501e+06 1.323501e+06\n", "mean 6.617510e+05 3.774596e+01\n", "std 3.820620e+05 1.728453e+01\n", "min 1.000000e+00 0.000000e+00\n", "25% 3.308760e+05 2.500000e+01\n", "50% 6.617510e+05 3.600000e+01\n", "75% 9.926260e+05 5.000000e+01\n", "max 1.323501e+06 1.220000e+02" ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" } ], "source": [ "covid_nacional.describe()" ] }, { "cell_type": "markdown", "metadata": { "id": "_yamjA7-fMtU" }, "source": [ "De modo predeterminado, `pandas` describe los datos numéricos `int64`. De estos solamente nos sería útil `edad`, pues `Unnamed: 0` es un índice (valor nominal)." ] }, { "cell_type": "code", "execution_count": 11, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 522 }, "id": "Opn-B5jyfm5z", "outputId": "51ddbf1f-6e63-4a26-a7b4-9fd04468038d" }, "outputs": [ { "data": { "text/html": [ "\n", "
\n", "
\n", "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
Unnamed: 0fecha_actualizacionid_registroorigensectorentidad_umsexoentidad_nacentidad_resmunicipio_res...otro_casotoma_muestra_labresultado_labtoma_muestra_antigenoresultado_antigenoclasificacion_finalmigrantepais_nacionalidadpais_origenuci
count1.323501e+061323501132350113235011323501132350113235011323501149707149707...1323501132350113235011323501132350113235011323501132350113200401323501
uniqueNaN1132350121232233231190...325237312214
topNaN2022-06-260793b8FUERA DE USMERSSACIUDAD DE MÉXICOMUJERCIUDAD DE MÉXICOMÉXICONEZAHUALCÓYOTL...NONONO APLICA (CASO SIN MUESTRA)SINEGATIVO A SARS-COV-2NEGATIVO A SARS-COV-2NO ESPECIFICADOMÉXICONO APLICANO APLICA
freqNaN1323501111702677936061314661733991105227213337426282...8484341152385115238512045657716477923641305180130467313200401297093
mean6.617510e+05NaNNaNNaNNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
std3.820620e+05NaNNaNNaNNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
min1.000000e+00NaNNaNNaNNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
25%3.308760e+05NaNNaNNaNNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
50%6.617510e+05NaNNaNNaNNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
75%9.926260e+05NaNNaNNaNNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
max1.323501e+06NaNNaNNaNNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
\n", "

11 rows × 41 columns

\n", "
\n", " \n", " \n", " \n", "\n", " \n", "
\n", "
\n", " " ], "text/plain": [ " Unnamed: 0 fecha_actualizacion id_registro origen sector \\\n", "count 1.323501e+06 1323501 1323501 1323501 1323501 \n", "unique NaN 1 1323501 2 12 \n", "top NaN 2022-06-26 0793b8 FUERA DE USMER SSA \n", "freq NaN 1323501 1 1170267 793606 \n", "mean 6.617510e+05 NaN NaN NaN NaN \n", "std 3.820620e+05 NaN NaN NaN NaN \n", "min 1.000000e+00 NaN NaN NaN NaN \n", "25% 3.308760e+05 NaN NaN NaN NaN \n", "50% 6.617510e+05 NaN NaN NaN NaN \n", "75% 9.926260e+05 NaN NaN NaN NaN \n", "max 1.323501e+06 NaN NaN NaN NaN \n", "\n", " entidad_um sexo entidad_nac entidad_res \\\n", "count 1323501 1323501 1323501 149707 \n", "unique 32 2 33 23 \n", "top CIUDAD DE MÉXICO MUJER CIUDAD DE MÉXICO MÉXICO \n", "freq 1314661 733991 1052272 133374 \n", "mean NaN NaN NaN NaN \n", "std NaN NaN NaN NaN \n", "min NaN NaN NaN NaN \n", "25% NaN NaN NaN NaN \n", "50% NaN NaN NaN NaN \n", "75% NaN NaN NaN NaN \n", "max NaN NaN NaN NaN \n", "\n", " municipio_res ... otro_caso toma_muestra_lab \\\n", "count 149707 ... 1323501 1323501 \n", "unique 1190 ... 3 2 \n", "top NEZAHUALCÓYOTL ... NO NO \n", "freq 26282 ... 848434 1152385 \n", "mean NaN ... NaN NaN \n", "std NaN ... NaN NaN \n", "min NaN ... NaN NaN \n", "25% NaN ... NaN NaN \n", "50% NaN ... NaN NaN \n", "75% NaN ... NaN NaN \n", "max NaN ... NaN NaN \n", "\n", " resultado_lab toma_muestra_antigeno \\\n", "count 1323501 1323501 \n", "unique 5 2 \n", "top NO APLICA (CASO SIN MUESTRA) SI \n", "freq 1152385 1204565 \n", "mean NaN NaN \n", "std NaN NaN \n", "min NaN NaN \n", "25% NaN NaN \n", "50% NaN NaN \n", "75% NaN NaN \n", "max NaN NaN \n", "\n", " resultado_antigeno clasificacion_final migrante \\\n", "count 1323501 1323501 1323501 \n", "unique 3 7 3 \n", "top NEGATIVO A SARS-COV-2 NEGATIVO A SARS-COV-2 NO ESPECIFICADO \n", "freq 771647 792364 1305180 \n", "mean NaN NaN NaN \n", "std NaN NaN NaN \n", "min NaN NaN NaN \n", "25% NaN NaN NaN \n", "50% NaN NaN NaN \n", "75% NaN NaN NaN \n", "max NaN NaN NaN \n", "\n", " pais_nacionalidad pais_origen uci \n", "count 1323501 1320040 1323501 \n", "unique 122 1 4 \n", "top MÉXICO NO APLICA NO APLICA \n", "freq 1304673 1320040 1297093 \n", "mean NaN NaN NaN \n", "std NaN NaN NaN \n", "min NaN NaN NaN \n", "25% NaN NaN NaN \n", "50% NaN NaN NaN \n", "75% NaN NaN NaN \n", "max NaN NaN NaN \n", "\n", "[11 rows x 41 columns]" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "covid_nacional.describe(include='all')" ] }, { "cell_type": "markdown", "metadata": { "id": "NdoEF5mofwNe" }, "source": [ "El parámetro `include='all'` obliga a realizar la operación en todas las columnas. \n", "\n", "Esto permite identificar algunas columnas con ciertas frecuencias que podrían ser sujeto de análisis. Por ejemplo, correlaciones entre enfermedades crónicas y resultados (positivos o negativos), o frecuencias de casos de migrantes, mujeres o indígenas relacionadas con un área geográfica.\n", "\n", "Debido a que esta fuente de datos no cuenta con información georeferenciada (contamos con los nombres de los municipios, pero no la información de latitud y longitud) será necesario utilizar una fuente de datos que permita agregar esa información." ] } ], "metadata": { "colab": { "authorship_tag": "ABX9TyOiKmGAhS4Nk+LNudQHmHn3", "collapsed_sections": [], "include_colab_link": true, "mount_file_id": "18UQvnWtbX-YFFFC8XSt7Tqmbu8OM29eM", "name": "mi cuaderno de datos_semana2.ipynb", "provenance": [], "toc_visible": true }, "kernelspec": { "display_name": "Python 3.10.4 64-bit", "language": "python", "name": "python3" }, "language_info": { "name": "python", "version": "3.10.4" }, "vscode": { "interpreter": { "hash": "aee8b7b246df8f9039afb4144a1f6fd8d2ca17a180786b69acc140d282b71a49" } } }, "nbformat": 4, "nbformat_minor": 0 }