{
  "cells": [
    {
      "cell_type": "markdown",
      "metadata": {},
      "source": [
        "# Actividad de avance del proyecto\n",
        "\n",
        "Después de realizar los ejercicios previos, es momento de incorporarlos a tu cuaderno de proyecto. Al finalizar, deberás tener un cuaderno de Google Colab similar a este:"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {},
      "source": [
        "<a href=\"https://colab.research.google.com/gist/jairomelo/20d21414fb95cfd5dbfaa17407b769e4/mi-cuaderno-de-datos_semana2.ipynb\" target=\"_parent\"><img src=\"https://colab.research.google.com/assets/colab-badge.svg\" alt=\"Open In Colab\"/></a>"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "H9FzFUrajfM7"
      },
      "source": [
        "# Importar datos\n",
        "\n",
        "Con \"importar datos\" nos referimos a la manera en la que preparamos la fuente de datos para ser leída por nuestro programa.\n",
        "\n",
        "Existen múltiples maneras de importar la información. Por ejemplo, podemos sencillamente utilizar el mismo método que usamos con nuestro archivo `ejemplo-1.txt`.\n",
        "\n",
        "Descarga el archivo que quieras utilizar en el directorio de Drive en el que vayas a almacenar tus datos.\n",
        "\n",
        "Como ejemplo, voy a utilizar los casos nacionales de COVID-19 registrados diariamente durante el primer semestre de 2022: https://datos.cdmx.gob.mx/dataset/casos-asociados-a-covid-19/resource/e5f65f40-5904-492a-ae33-1ea98fb73d78?inner_span=True\n",
        "\n",
        "Descargo el archivo CSV en un directorio de mi computadora. Posteriormente lo subo a mi directorio de datos de Google Drive:\n",
        "\n",
        "\n",
        "Volvemos a nuestro cuaderno de Google Colab. Me aseguro de haber activado Google Drive en mi Google Colab y busco el directorio en el cual está mi archivo. En mi caso: `'/content/drive/MyDrive/Colab Notebooks/curso_datos/casos_nacionales_covid-19_2022_semestre1.csv'`\n",
        "\n",
        "Con esos pasos, podemos hacer la importación:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": 1,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "qnXNK7H2kz3M",
        "outputId": "03d7e0e8-b02b-4101-ce97-b23d2988f946"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "['\"\",\"fecha_actualizacion\",\"id_registro\",\"origen\",\"sector\",\"entidad_um\",\"sexo\",\"entidad_nac\",\"entidad_res\",\"municipio_res\",\"tipo_paciente\",\"fecha_ingreso\",\"fecha_sintomas\",\"fecha_def\",\"intubado\",\"neumonia\",\"edad\",\"nacionalidad\",\"embarazo\",\"habla_lengua_indig\",\"indigena\",\"diabetes\",\"epoc\",\"asma\",\"inmusupr\",\"hipertension\",\"otra_com\",\"cardiovascular\",\"obesidad\",\"renal_cronica\",\"tabaquismo\",\"otro_caso\",\"toma_muestra_lab\",\"resultado_lab\",\"toma_muestra_antigeno\",\"resultado_antigeno\",\"clasificacion_final\",\"migrante\",\"pais_nacionalidad\",\"pais_origen\",\"uci\"\\n']"
            ]
          },
          "execution_count": 1,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "datos = '/content/drive/MyDrive/Colab Notebooks/curso_datos/casos_nacionales_covid-19_2022_semestre1.csv'\n",
        "\n",
        "with open(datos, 'r') as f:\n",
        "  data = f.readlines(10) # agrego este argumento porque el archivo es muy extenso.\n",
        "\n",
        "data"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "LukLwOCkpa7t"
      },
      "source": [
        "De esta manera hemos logrado incluir el archivo en nuestro cuaderno, pero será muy complejo manipularlo. Por esta razón, es preferible utilizar una librería que nos ayude a procesar estos datos. En nuestro caso, usaremos 'pandas'\n",
        "\n",
        "Para hacer que nuestro programa funcione, solamente debemos importar la librería:\n",
        "\n",
        "`import pandas as pd`\n",
        "\n",
        "Y posteriormente podremos abrir nuestro archivo desde Python:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": 2,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 508
        },
        "id": "b4yv7auIqCt7",
        "outputId": "3ac77c6a-2684-44ed-9b18-f9fa480700b8"
      },
      "outputs": [
        {
          "name": "stderr",
          "output_type": "stream",
          "text": [
            "/usr/local/lib/python3.7/dist-packages/IPython/core/interactiveshell.py:2882: DtypeWarning: Columns (13) have mixed types.Specify dtype option on import or set low_memory=False.\n",
            "  exec(code_obj, self.user_global_ns, self.user_ns)\n"
          ]
        },
        {
          "data": {
            "text/html": [
              "\n",
              "  <div id=\"df-b6d8c754-2c07-4e33-a140-7a1573b787fe\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>Unnamed: 0</th>\n",
              "      <th>fecha_actualizacion</th>\n",
              "      <th>id_registro</th>\n",
              "      <th>origen</th>\n",
              "      <th>sector</th>\n",
              "      <th>entidad_um</th>\n",
              "      <th>sexo</th>\n",
              "      <th>entidad_nac</th>\n",
              "      <th>entidad_res</th>\n",
              "      <th>municipio_res</th>\n",
              "      <th>...</th>\n",
              "      <th>otro_caso</th>\n",
              "      <th>toma_muestra_lab</th>\n",
              "      <th>resultado_lab</th>\n",
              "      <th>toma_muestra_antigeno</th>\n",
              "      <th>resultado_antigeno</th>\n",
              "      <th>clasificacion_final</th>\n",
              "      <th>migrante</th>\n",
              "      <th>pais_nacionalidad</th>\n",
              "      <th>pais_origen</th>\n",
              "      <th>uci</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>1</td>\n",
              "      <td>2022-06-26</td>\n",
              "      <td>0793b8</td>\n",
              "      <td>FUERA DE USMER</td>\n",
              "      <td>SSA</td>\n",
              "      <td>CIUDAD DE MÉXICO</td>\n",
              "      <td>HOMBRE</td>\n",
              "      <td>CIUDAD DE MÉXICO</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>...</td>\n",
              "      <td>NO</td>\n",
              "      <td>NO</td>\n",
              "      <td>NO APLICA (CASO SIN MUESTRA)</td>\n",
              "      <td>SI</td>\n",
              "      <td>NEGATIVO A SARS-COV-2</td>\n",
              "      <td>NEGATIVO A SARS-COV-2</td>\n",
              "      <td>NO ESPECIFICADO</td>\n",
              "      <td>MÉXICO</td>\n",
              "      <td>NO APLICA</td>\n",
              "      <td>NO APLICA</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>2</td>\n",
              "      <td>2022-06-26</td>\n",
              "      <td>0fef08</td>\n",
              "      <td>USMER</td>\n",
              "      <td>SSA</td>\n",
              "      <td>CIUDAD DE MÉXICO</td>\n",
              "      <td>HOMBRE</td>\n",
              "      <td>CIUDAD DE MÉXICO</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>...</td>\n",
              "      <td>NO</td>\n",
              "      <td>SI</td>\n",
              "      <td>POSITIVO A SARS-COV-2</td>\n",
              "      <td>NO</td>\n",
              "      <td>NO APLICA (CASO SIN MUESTRA)</td>\n",
              "      <td>CASO DE SARS-COV-2  CONFIRMADO</td>\n",
              "      <td>NO ESPECIFICADO</td>\n",
              "      <td>MÉXICO</td>\n",
              "      <td>NO APLICA</td>\n",
              "      <td>NO APLICA</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>3</td>\n",
              "      <td>2022-06-26</td>\n",
              "      <td>11e31a</td>\n",
              "      <td>FUERA DE USMER</td>\n",
              "      <td>SSA</td>\n",
              "      <td>CIUDAD DE MÉXICO</td>\n",
              "      <td>HOMBRE</td>\n",
              "      <td>CIUDAD DE MÉXICO</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>...</td>\n",
              "      <td>NO</td>\n",
              "      <td>NO</td>\n",
              "      <td>NO APLICA (CASO SIN MUESTRA)</td>\n",
              "      <td>SI</td>\n",
              "      <td>NEGATIVO A SARS-COV-2</td>\n",
              "      <td>NEGATIVO A SARS-COV-2</td>\n",
              "      <td>NO ESPECIFICADO</td>\n",
              "      <td>MÉXICO</td>\n",
              "      <td>NO APLICA</td>\n",
              "      <td>NO APLICA</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>3</th>\n",
              "      <td>4</td>\n",
              "      <td>2022-06-26</td>\n",
              "      <td>0741e4</td>\n",
              "      <td>FUERA DE USMER</td>\n",
              "      <td>ISSSTE</td>\n",
              "      <td>CIUDAD DE MÉXICO</td>\n",
              "      <td>HOMBRE</td>\n",
              "      <td>CIUDAD DE MÉXICO</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>...</td>\n",
              "      <td>NO</td>\n",
              "      <td>SI</td>\n",
              "      <td>RESULTADO NO ADECUADO</td>\n",
              "      <td>NO</td>\n",
              "      <td>NO APLICA (CASO SIN MUESTRA)</td>\n",
              "      <td>NO REALIZADO POR LABORATORIO</td>\n",
              "      <td>NO ESPECIFICADO</td>\n",
              "      <td>MÉXICO</td>\n",
              "      <td>NO APLICA</td>\n",
              "      <td>NO</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>4</th>\n",
              "      <td>5</td>\n",
              "      <td>2022-06-26</td>\n",
              "      <td>13c92b</td>\n",
              "      <td>FUERA DE USMER</td>\n",
              "      <td>SSA</td>\n",
              "      <td>CIUDAD DE MÉXICO</td>\n",
              "      <td>MUJER</td>\n",
              "      <td>CIUDAD DE MÉXICO</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>...</td>\n",
              "      <td>SI</td>\n",
              "      <td>NO</td>\n",
              "      <td>NO APLICA (CASO SIN MUESTRA)</td>\n",
              "      <td>SI</td>\n",
              "      <td>NEGATIVO A SARS-COV-2</td>\n",
              "      <td>NEGATIVO A SARS-COV-2</td>\n",
              "      <td>NO ESPECIFICADO</td>\n",
              "      <td>MÉXICO</td>\n",
              "      <td>NO APLICA</td>\n",
              "      <td>NO APLICA</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "<p>5 rows × 41 columns</p>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-b6d8c754-2c07-4e33-a140-7a1573b787fe')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-b6d8c754-2c07-4e33-a140-7a1573b787fe button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-b6d8c754-2c07-4e33-a140-7a1573b787fe');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ],
            "text/plain": [
              "   Unnamed: 0 fecha_actualizacion id_registro          origen  sector  \\\n",
              "0           1          2022-06-26      0793b8  FUERA DE USMER     SSA   \n",
              "1           2          2022-06-26      0fef08           USMER     SSA   \n",
              "2           3          2022-06-26      11e31a  FUERA DE USMER     SSA   \n",
              "3           4          2022-06-26      0741e4  FUERA DE USMER  ISSSTE   \n",
              "4           5          2022-06-26      13c92b  FUERA DE USMER     SSA   \n",
              "\n",
              "         entidad_um    sexo       entidad_nac entidad_res municipio_res  ...  \\\n",
              "0  CIUDAD DE MÉXICO  HOMBRE  CIUDAD DE MÉXICO         NaN           NaN  ...   \n",
              "1  CIUDAD DE MÉXICO  HOMBRE  CIUDAD DE MÉXICO         NaN           NaN  ...   \n",
              "2  CIUDAD DE MÉXICO  HOMBRE  CIUDAD DE MÉXICO         NaN           NaN  ...   \n",
              "3  CIUDAD DE MÉXICO  HOMBRE  CIUDAD DE MÉXICO         NaN           NaN  ...   \n",
              "4  CIUDAD DE MÉXICO   MUJER  CIUDAD DE MÉXICO         NaN           NaN  ...   \n",
              "\n",
              "  otro_caso toma_muestra_lab                 resultado_lab  \\\n",
              "0        NO               NO  NO APLICA (CASO SIN MUESTRA)   \n",
              "1        NO               SI         POSITIVO A SARS-COV-2   \n",
              "2        NO               NO  NO APLICA (CASO SIN MUESTRA)   \n",
              "3        NO               SI         RESULTADO NO ADECUADO   \n",
              "4        SI               NO  NO APLICA (CASO SIN MUESTRA)   \n",
              "\n",
              "  toma_muestra_antigeno            resultado_antigeno  \\\n",
              "0                    SI         NEGATIVO A SARS-COV-2   \n",
              "1                    NO  NO APLICA (CASO SIN MUESTRA)   \n",
              "2                    SI         NEGATIVO A SARS-COV-2   \n",
              "3                    NO  NO APLICA (CASO SIN MUESTRA)   \n",
              "4                    SI         NEGATIVO A SARS-COV-2   \n",
              "\n",
              "              clasificacion_final         migrante pais_nacionalidad  \\\n",
              "0           NEGATIVO A SARS-COV-2  NO ESPECIFICADO            MÉXICO   \n",
              "1  CASO DE SARS-COV-2  CONFIRMADO  NO ESPECIFICADO            MÉXICO   \n",
              "2           NEGATIVO A SARS-COV-2  NO ESPECIFICADO            MÉXICO   \n",
              "3    NO REALIZADO POR LABORATORIO  NO ESPECIFICADO            MÉXICO   \n",
              "4           NEGATIVO A SARS-COV-2  NO ESPECIFICADO            MÉXICO   \n",
              "\n",
              "  pais_origen        uci  \n",
              "0   NO APLICA  NO APLICA  \n",
              "1   NO APLICA  NO APLICA  \n",
              "2   NO APLICA  NO APLICA  \n",
              "3   NO APLICA         NO  \n",
              "4   NO APLICA  NO APLICA  \n",
              "\n",
              "[5 rows x 41 columns]"
            ]
          },
          "execution_count": 2,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "import pandas as pd\n",
        "\n",
        "covid_nacional = pd.read_csv(datos)\n",
        "covid_nacional.head()"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "Nu3Ce4XbqZ2J"
      },
      "source": [
        "De esta manera, nuestro archivo estará listo para ser procesado :)"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "zlne2GAtX-4M"
      },
      "source": [
        "# Análisis de estructuras de datos y preparación\n",
        "\n",
        "## Describe la fuente de datos\n",
        "\n",
        "Una descripción simple de la forma de la fuente de datos es la siguiente:"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": 5,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "blLldK-XYOqQ",
        "outputId": "b811a307-0863-4097-e60f-67a7b47730e6"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "1323501"
            ]
          },
          "execution_count": 5,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "# número de filas\n",
        "filas = covid_nacional.shape[0]\n",
        "filas"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "9tB3RFOpcszB"
      },
      "source": [
        "Esta es una fuente de datos con suficientes campos como para justificar una lectura distante de la información. Difícilmente una persona podría comprender la información que hay en ella solamente \"leyendo\" los datos de esas tablas."
      ]
    },
    {
      "cell_type": "code",
      "execution_count": 6,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "9X7l8HuLdAvE",
        "outputId": "112bd8b5-fc0f-40b0-8ef6-81c84590838c"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "41"
            ]
          },
          "execution_count": 6,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "# número de columnas\n",
        "columnas = covid_nacional.shape[1]\n",
        "columnas"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "Jv469AOXdGvl"
      },
      "source": [
        "Además, vemos que es un conjunto de datos con una cantidad significativa de categorías. Esto permite que con una sola fuente de información se puedan realizar operaciones de comparación entre columnas para analizar la información."
      ]
    },
    {
      "cell_type": "code",
      "execution_count": 7,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "4PUmMBdvda_-",
        "outputId": "f5a3a3fd-e12b-45ff-cebd-2c5e9f355e37"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "Index(['Unnamed: 0', 'fecha_actualizacion', 'id_registro', 'origen', 'sector',\n",
              "       'entidad_um', 'sexo', 'entidad_nac', 'entidad_res', 'municipio_res',\n",
              "       'tipo_paciente', 'fecha_ingreso', 'fecha_sintomas', 'fecha_def',\n",
              "       'intubado', 'neumonia', 'edad', 'nacionalidad', 'embarazo',\n",
              "       'habla_lengua_indig', 'indigena', 'diabetes', 'epoc', 'asma',\n",
              "       'inmusupr', 'hipertension', 'otra_com', 'cardiovascular', 'obesidad',\n",
              "       'renal_cronica', 'tabaquismo', 'otro_caso', 'toma_muestra_lab',\n",
              "       'resultado_lab', 'toma_muestra_antigeno', 'resultado_antigeno',\n",
              "       'clasificacion_final', 'migrante', 'pais_nacionalidad', 'pais_origen',\n",
              "       'uci'],\n",
              "      dtype='object')"
            ]
          },
          "execution_count": 7,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "# nombre de las columnas\n",
        "covid_nacional.columns"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "Mbs9hsyUdjlA"
      },
      "source": [
        "El nombre de las columnas nos ayuda a identificar las categorías y posibles datos que contienen nuestra fuente de datos.\n",
        "\n",
        "No todas las fuentes de datos nombran sus columnas de manera significativa. En el caso de nuestro ejemplo, es bastante sencillo identificar qué tipo de información contiene cada categoría o columna, incluso qué tipo de dato sería deseable que tuviese cada una."
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "rzqdf8zfd-qH"
      },
      "source": [
        "## Tipos de datos con `dtypes()`"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": 9,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "OrisVD9BeE4q",
        "outputId": "a1843899-f2ef-4225-f8dc-1dd4bbcb4ef9"
      },
      "outputs": [
        {
          "data": {
            "text/plain": [
              "Unnamed: 0                int64\n",
              "fecha_actualizacion      object\n",
              "id_registro              object\n",
              "origen                   object\n",
              "sector                   object\n",
              "entidad_um               object\n",
              "sexo                     object\n",
              "entidad_nac              object\n",
              "entidad_res              object\n",
              "municipio_res            object\n",
              "tipo_paciente            object\n",
              "fecha_ingreso            object\n",
              "fecha_sintomas           object\n",
              "fecha_def                object\n",
              "intubado                 object\n",
              "neumonia                 object\n",
              "edad                      int64\n",
              "nacionalidad             object\n",
              "embarazo                 object\n",
              "habla_lengua_indig       object\n",
              "indigena                 object\n",
              "diabetes                 object\n",
              "epoc                     object\n",
              "asma                     object\n",
              "inmusupr                 object\n",
              "hipertension             object\n",
              "otra_com                 object\n",
              "cardiovascular           object\n",
              "obesidad                 object\n",
              "renal_cronica            object\n",
              "tabaquismo               object\n",
              "otro_caso                object\n",
              "toma_muestra_lab         object\n",
              "resultado_lab            object\n",
              "toma_muestra_antigeno    object\n",
              "resultado_antigeno       object\n",
              "clasificacion_final      object\n",
              "migrante                 object\n",
              "pais_nacionalidad        object\n",
              "pais_origen              object\n",
              "uci                      object\n",
              "dtype: object"
            ]
          },
          "execution_count": 9,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "covid_nacional.dtypes"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "mYTidlIaeJeG"
      },
      "source": [
        "La mayoría de los datos se encuentran representados como tipo `object`, es decir, que son de tipo texto, numérico-textual o mixto.\n",
        "\n",
        "Aunque hay columnas que podrían tener un tipo de dato `datetime`, están representadas en tipo `object`. Esas columnas deberán ser transformadas para poder hacer operaciones y visualizaciones.\n",
        "\n",
        "## Descripción de los datos con `describe()`"
      ]
    },
    {
      "cell_type": "code",
      "execution_count": 10,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 300
        },
        "id": "Xgau6A4jfIWY",
        "outputId": "bed8f8d3-0672-4dba-a76d-86e5ea8a5dba"
      },
      "outputs": [
        {
          "data": {
            "text/html": [
              "\n",
              "  <div id=\"df-2450315b-1133-4f13-b48c-b3101cb7a732\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>Unnamed: 0</th>\n",
              "      <th>edad</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>count</th>\n",
              "      <td>1.323501e+06</td>\n",
              "      <td>1.323501e+06</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>mean</th>\n",
              "      <td>6.617510e+05</td>\n",
              "      <td>3.774596e+01</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>std</th>\n",
              "      <td>3.820620e+05</td>\n",
              "      <td>1.728453e+01</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>min</th>\n",
              "      <td>1.000000e+00</td>\n",
              "      <td>0.000000e+00</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>25%</th>\n",
              "      <td>3.308760e+05</td>\n",
              "      <td>2.500000e+01</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>50%</th>\n",
              "      <td>6.617510e+05</td>\n",
              "      <td>3.600000e+01</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>75%</th>\n",
              "      <td>9.926260e+05</td>\n",
              "      <td>5.000000e+01</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>max</th>\n",
              "      <td>1.323501e+06</td>\n",
              "      <td>1.220000e+02</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-2450315b-1133-4f13-b48c-b3101cb7a732')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-2450315b-1133-4f13-b48c-b3101cb7a732 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-2450315b-1133-4f13-b48c-b3101cb7a732');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ],
            "text/plain": [
              "         Unnamed: 0          edad\n",
              "count  1.323501e+06  1.323501e+06\n",
              "mean   6.617510e+05  3.774596e+01\n",
              "std    3.820620e+05  1.728453e+01\n",
              "min    1.000000e+00  0.000000e+00\n",
              "25%    3.308760e+05  2.500000e+01\n",
              "50%    6.617510e+05  3.600000e+01\n",
              "75%    9.926260e+05  5.000000e+01\n",
              "max    1.323501e+06  1.220000e+02"
            ]
          },
          "execution_count": 10,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "covid_nacional.describe()"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "_yamjA7-fMtU"
      },
      "source": [
        "De modo predeterminado, `pandas` describe los datos numéricos `int64`. De estos solamente nos sería útil `edad`, pues `Unnamed: 0` es un índice (valor nominal)."
      ]
    },
    {
      "cell_type": "code",
      "execution_count": 11,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 522
        },
        "id": "Opn-B5jyfm5z",
        "outputId": "51ddbf1f-6e63-4a26-a7b4-9fd04468038d"
      },
      "outputs": [
        {
          "data": {
            "text/html": [
              "\n",
              "  <div id=\"df-6d2be797-b3aa-4e61-bf79-83be0cdbac89\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>Unnamed: 0</th>\n",
              "      <th>fecha_actualizacion</th>\n",
              "      <th>id_registro</th>\n",
              "      <th>origen</th>\n",
              "      <th>sector</th>\n",
              "      <th>entidad_um</th>\n",
              "      <th>sexo</th>\n",
              "      <th>entidad_nac</th>\n",
              "      <th>entidad_res</th>\n",
              "      <th>municipio_res</th>\n",
              "      <th>...</th>\n",
              "      <th>otro_caso</th>\n",
              "      <th>toma_muestra_lab</th>\n",
              "      <th>resultado_lab</th>\n",
              "      <th>toma_muestra_antigeno</th>\n",
              "      <th>resultado_antigeno</th>\n",
              "      <th>clasificacion_final</th>\n",
              "      <th>migrante</th>\n",
              "      <th>pais_nacionalidad</th>\n",
              "      <th>pais_origen</th>\n",
              "      <th>uci</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>count</th>\n",
              "      <td>1.323501e+06</td>\n",
              "      <td>1323501</td>\n",
              "      <td>1323501</td>\n",
              "      <td>1323501</td>\n",
              "      <td>1323501</td>\n",
              "      <td>1323501</td>\n",
              "      <td>1323501</td>\n",
              "      <td>1323501</td>\n",
              "      <td>149707</td>\n",
              "      <td>149707</td>\n",
              "      <td>...</td>\n",
              "      <td>1323501</td>\n",
              "      <td>1323501</td>\n",
              "      <td>1323501</td>\n",
              "      <td>1323501</td>\n",
              "      <td>1323501</td>\n",
              "      <td>1323501</td>\n",
              "      <td>1323501</td>\n",
              "      <td>1323501</td>\n",
              "      <td>1320040</td>\n",
              "      <td>1323501</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>unique</th>\n",
              "      <td>NaN</td>\n",
              "      <td>1</td>\n",
              "      <td>1323501</td>\n",
              "      <td>2</td>\n",
              "      <td>12</td>\n",
              "      <td>32</td>\n",
              "      <td>2</td>\n",
              "      <td>33</td>\n",
              "      <td>23</td>\n",
              "      <td>1190</td>\n",
              "      <td>...</td>\n",
              "      <td>3</td>\n",
              "      <td>2</td>\n",
              "      <td>5</td>\n",
              "      <td>2</td>\n",
              "      <td>3</td>\n",
              "      <td>7</td>\n",
              "      <td>3</td>\n",
              "      <td>122</td>\n",
              "      <td>1</td>\n",
              "      <td>4</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>top</th>\n",
              "      <td>NaN</td>\n",
              "      <td>2022-06-26</td>\n",
              "      <td>0793b8</td>\n",
              "      <td>FUERA DE USMER</td>\n",
              "      <td>SSA</td>\n",
              "      <td>CIUDAD DE MÉXICO</td>\n",
              "      <td>MUJER</td>\n",
              "      <td>CIUDAD DE MÉXICO</td>\n",
              "      <td>MÉXICO</td>\n",
              "      <td>NEZAHUALCÓYOTL</td>\n",
              "      <td>...</td>\n",
              "      <td>NO</td>\n",
              "      <td>NO</td>\n",
              "      <td>NO APLICA (CASO SIN MUESTRA)</td>\n",
              "      <td>SI</td>\n",
              "      <td>NEGATIVO A SARS-COV-2</td>\n",
              "      <td>NEGATIVO A SARS-COV-2</td>\n",
              "      <td>NO ESPECIFICADO</td>\n",
              "      <td>MÉXICO</td>\n",
              "      <td>NO APLICA</td>\n",
              "      <td>NO APLICA</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>freq</th>\n",
              "      <td>NaN</td>\n",
              "      <td>1323501</td>\n",
              "      <td>1</td>\n",
              "      <td>1170267</td>\n",
              "      <td>793606</td>\n",
              "      <td>1314661</td>\n",
              "      <td>733991</td>\n",
              "      <td>1052272</td>\n",
              "      <td>133374</td>\n",
              "      <td>26282</td>\n",
              "      <td>...</td>\n",
              "      <td>848434</td>\n",
              "      <td>1152385</td>\n",
              "      <td>1152385</td>\n",
              "      <td>1204565</td>\n",
              "      <td>771647</td>\n",
              "      <td>792364</td>\n",
              "      <td>1305180</td>\n",
              "      <td>1304673</td>\n",
              "      <td>1320040</td>\n",
              "      <td>1297093</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>mean</th>\n",
              "      <td>6.617510e+05</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>...</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>std</th>\n",
              "      <td>3.820620e+05</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>...</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>min</th>\n",
              "      <td>1.000000e+00</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>...</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>25%</th>\n",
              "      <td>3.308760e+05</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>...</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>50%</th>\n",
              "      <td>6.617510e+05</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>...</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>75%</th>\n",
              "      <td>9.926260e+05</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>...</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>max</th>\n",
              "      <td>1.323501e+06</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>...</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "<p>11 rows × 41 columns</p>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-6d2be797-b3aa-4e61-bf79-83be0cdbac89')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-6d2be797-b3aa-4e61-bf79-83be0cdbac89 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-6d2be797-b3aa-4e61-bf79-83be0cdbac89');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ],
            "text/plain": [
              "          Unnamed: 0 fecha_actualizacion id_registro          origen   sector  \\\n",
              "count   1.323501e+06             1323501     1323501         1323501  1323501   \n",
              "unique           NaN                   1     1323501               2       12   \n",
              "top              NaN          2022-06-26      0793b8  FUERA DE USMER      SSA   \n",
              "freq             NaN             1323501           1         1170267   793606   \n",
              "mean    6.617510e+05                 NaN         NaN             NaN      NaN   \n",
              "std     3.820620e+05                 NaN         NaN             NaN      NaN   \n",
              "min     1.000000e+00                 NaN         NaN             NaN      NaN   \n",
              "25%     3.308760e+05                 NaN         NaN             NaN      NaN   \n",
              "50%     6.617510e+05                 NaN         NaN             NaN      NaN   \n",
              "75%     9.926260e+05                 NaN         NaN             NaN      NaN   \n",
              "max     1.323501e+06                 NaN         NaN             NaN      NaN   \n",
              "\n",
              "              entidad_um     sexo       entidad_nac entidad_res  \\\n",
              "count            1323501  1323501           1323501      149707   \n",
              "unique                32        2                33          23   \n",
              "top     CIUDAD DE MÉXICO    MUJER  CIUDAD DE MÉXICO      MÉXICO   \n",
              "freq             1314661   733991           1052272      133374   \n",
              "mean                 NaN      NaN               NaN         NaN   \n",
              "std                  NaN      NaN               NaN         NaN   \n",
              "min                  NaN      NaN               NaN         NaN   \n",
              "25%                  NaN      NaN               NaN         NaN   \n",
              "50%                  NaN      NaN               NaN         NaN   \n",
              "75%                  NaN      NaN               NaN         NaN   \n",
              "max                  NaN      NaN               NaN         NaN   \n",
              "\n",
              "         municipio_res  ... otro_caso toma_muestra_lab  \\\n",
              "count           149707  ...   1323501          1323501   \n",
              "unique            1190  ...         3                2   \n",
              "top     NEZAHUALCÓYOTL  ...        NO               NO   \n",
              "freq             26282  ...    848434          1152385   \n",
              "mean               NaN  ...       NaN              NaN   \n",
              "std                NaN  ...       NaN              NaN   \n",
              "min                NaN  ...       NaN              NaN   \n",
              "25%                NaN  ...       NaN              NaN   \n",
              "50%                NaN  ...       NaN              NaN   \n",
              "75%                NaN  ...       NaN              NaN   \n",
              "max                NaN  ...       NaN              NaN   \n",
              "\n",
              "                       resultado_lab toma_muestra_antigeno  \\\n",
              "count                        1323501               1323501   \n",
              "unique                             5                     2   \n",
              "top     NO APLICA (CASO SIN MUESTRA)                    SI   \n",
              "freq                         1152385               1204565   \n",
              "mean                             NaN                   NaN   \n",
              "std                              NaN                   NaN   \n",
              "min                              NaN                   NaN   \n",
              "25%                              NaN                   NaN   \n",
              "50%                              NaN                   NaN   \n",
              "75%                              NaN                   NaN   \n",
              "max                              NaN                   NaN   \n",
              "\n",
              "           resultado_antigeno    clasificacion_final         migrante  \\\n",
              "count                 1323501                1323501          1323501   \n",
              "unique                      3                      7                3   \n",
              "top     NEGATIVO A SARS-COV-2  NEGATIVO A SARS-COV-2  NO ESPECIFICADO   \n",
              "freq                   771647                 792364          1305180   \n",
              "mean                      NaN                    NaN              NaN   \n",
              "std                       NaN                    NaN              NaN   \n",
              "min                       NaN                    NaN              NaN   \n",
              "25%                       NaN                    NaN              NaN   \n",
              "50%                       NaN                    NaN              NaN   \n",
              "75%                       NaN                    NaN              NaN   \n",
              "max                       NaN                    NaN              NaN   \n",
              "\n",
              "       pais_nacionalidad pais_origen        uci  \n",
              "count            1323501     1320040    1323501  \n",
              "unique               122           1          4  \n",
              "top               MÉXICO   NO APLICA  NO APLICA  \n",
              "freq             1304673     1320040    1297093  \n",
              "mean                 NaN         NaN        NaN  \n",
              "std                  NaN         NaN        NaN  \n",
              "min                  NaN         NaN        NaN  \n",
              "25%                  NaN         NaN        NaN  \n",
              "50%                  NaN         NaN        NaN  \n",
              "75%                  NaN         NaN        NaN  \n",
              "max                  NaN         NaN        NaN  \n",
              "\n",
              "[11 rows x 41 columns]"
            ]
          },
          "execution_count": 11,
          "metadata": {},
          "output_type": "execute_result"
        }
      ],
      "source": [
        "covid_nacional.describe(include='all')"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "NdoEF5mofwNe"
      },
      "source": [
        "El parámetro `include='all'` obliga a realizar la operación en todas las columnas. \n",
        "\n",
        "Esto permite identificar algunas columnas con ciertas frecuencias que podrían ser sujeto de análisis. Por ejemplo, correlaciones entre enfermedades crónicas y resultados (positivos o negativos), o frecuencias de casos de migrantes, mujeres o indígenas relacionadas con un área geográfica.\n",
        "\n",
        "Debido a que esta fuente de datos no cuenta con información georeferenciada (contamos con los nombres de los municipios, pero no la información de latitud y longitud) será necesario utilizar una fuente de datos que permita agregar esa información."
      ]
    }
  ],
  "metadata": {
    "colab": {
      "authorship_tag": "ABX9TyOiKmGAhS4Nk+LNudQHmHn3",
      "collapsed_sections": [],
      "include_colab_link": true,
      "mount_file_id": "18UQvnWtbX-YFFFC8XSt7Tqmbu8OM29eM",
      "name": "mi cuaderno de datos_semana2.ipynb",
      "provenance": [],
      "toc_visible": true
    },
    "kernelspec": {
      "display_name": "Python 3.10.4 64-bit",
      "language": "python",
      "name": "python3"
    },
    "language_info": {
      "name": "python",
      "version": "3.10.4"
    },
    "vscode": {
      "interpreter": {
        "hash": "aee8b7b246df8f9039afb4144a1f6fd8d2ca17a180786b69acc140d282b71a49"
      }
    }
  },
  "nbformat": 4,
  "nbformat_minor": 0
}