diff --git a/analise_resultados_muriki.ipynb b/analise_resultados_muriki.ipynb index a9ad833bec707e91fc960af2c2c6a3d99ec09b0d..2d5623ebab9c874e38fb596067905e9dfaf0f40c 100644 --- a/analise_resultados_muriki.ipynb +++ b/analise_resultados_muriki.ipynb @@ -2,7 +2,7 @@ "cells": [ { "cell_type": "code", - "execution_count": 1, + "execution_count": 2, "id": "e13d5b4a-95a3-404c-bf01-7b4b48b4d121", "metadata": { "tags": [] @@ -16,7 +16,7 @@ }, { "cell_type": "code", - "execution_count": 2, + "execution_count": 5, "id": "3ee220b5-c632-415e-8a0e-76e85f31b5f1", "metadata": { "scrolled": true, @@ -55,7 +55,7 @@ " </thead>\n", " <tbody>\n", " <tr>\n", - " <th>40</th>\n", + " <th>8</th>\n", " <td>NUM_SALAS</td>\n", " <td>2007</td>\n", " <td>NUM_SALAS</td>\n", @@ -65,7 +65,7 @@ " <td>9.073760e-02</td>\n", " </tr>\n", " <tr>\n", - " <th>48</th>\n", + " <th>16</th>\n", " <td>NUM_SALAS_UTILIZADAS</td>\n", " <td>2007</td>\n", " <td>NUM_SALAS_UTILIZADAS</td>\n", @@ -75,7 +75,7 @@ " <td>4.824552e-02</td>\n", " </tr>\n", " <tr>\n", - " <th>24</th>\n", + " <th>40</th>\n", " <td>NUM_COMPUTADPR_ALUNO</td>\n", " <td>2007</td>\n", " <td>NUM_COMPUTADPR_ALUNO</td>\n", @@ -85,7 +85,7 @@ " <td>3.072432e-01</td>\n", " </tr>\n", " <tr>\n", - " <th>32</th>\n", + " <th>48</th>\n", " <td>NUM_FUNCIONARIOS</td>\n", " <td>2007</td>\n", " <td>NUM_FUNCIONARIOS</td>\n", @@ -95,7 +95,7 @@ " <td>1.264120e-26</td>\n", " </tr>\n", " <tr>\n", - " <th>16</th>\n", + " <th>32</th>\n", " <td>NUM_COMPUTADOR_ADM</td>\n", " <td>2007</td>\n", " <td>NUM_COMPUTADOR_ADM</td>\n", @@ -110,28 +110,28 @@ ], "text/plain": [ " coluna1 ano_coluna1 coluna2 ano_coluna2 \\\n", - "40 NUM_SALAS 2007 NUM_SALAS 2008 \n", - "48 NUM_SALAS_UTILIZADAS 2007 NUM_SALAS_UTILIZADAS 2008 \n", - "24 NUM_COMPUTADPR_ALUNO 2007 NUM_COMPUTADPR_ALUNO 2008 \n", - "32 NUM_FUNCIONARIOS 2007 NUM_FUNCIONARIOS 2008 \n", - "16 NUM_COMPUTADOR_ADM 2007 NUM_COMPUTADOR_ADM 2008 \n", + "8 NUM_SALAS 2007 NUM_SALAS 2008 \n", + "16 NUM_SALAS_UTILIZADAS 2007 NUM_SALAS_UTILIZADAS 2008 \n", + "40 NUM_COMPUTADPR_ALUNO 2007 NUM_COMPUTADPR_ALUNO 2008 \n", + "48 NUM_FUNCIONARIOS 2007 NUM_FUNCIONARIOS 2008 \n", + "32 NUM_COMPUTADOR_ADM 2007 NUM_COMPUTADOR_ADM 2008 \n", "\n", " tamanho_amostra1 estatistica_f p_valor \n", - "40 191233 0.007688 9.073760e-02 \n", - "48 189299 0.009017 4.824552e-02 \n", - "24 44225 0.009145 3.072432e-01 \n", - "32 187765 0.047947 1.264120e-26 \n", - "16 74158 0.066157 1.129997e-22 " + "8 191233 0.007688 9.073760e-02 \n", + "16 189299 0.009017 4.824552e-02 \n", + "40 44225 0.009145 3.072432e-01 \n", + "48 187765 0.047947 1.264120e-26 \n", + "32 74158 0.066157 1.129997e-22 " ] }, - "execution_count": 2, + "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Importa CSV, ordena por ano e metrica\n", - "df = pd.read_csv('Testes_R/Result_F/F_subsequente.csv', sep=',')\n", + "df = pd.read_csv('Testes_R/Result_F/escola_integers_F_subsequente.csv', sep=',')\n", "\n", "# Coluna contendo a estatistica a ser analisada\n", "stat_column = 'estatistica_f'\n", @@ -151,6 +151,41 @@ "df.head()" ] }, + { + "cell_type": "code", + "execution_count": 6, + "id": "eea5e1fb-1b38-4d13-b7e1-7d531c9f342d", + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "array(['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADPR_ALUNO',\n", + " 'NUM_FUNCIONARIOS', 'NUM_COMPUTADOR_ADM', 'NUM_COMPUTADOR',\n", + " 'NUM_FOTO', 'NUM_COPIADORA', 'NUM_SOM', 'NUM_DVD',\n", + " 'NUM_IMPRESSORA', 'NUM_TV', 'NUM_MULTIMIDIA', 'NUM_VIDEOCASSETE',\n", + " 'NUM_PARABOLICA', 'NUM_RETROPROJETOR', 'NUM_FAX',\n", + " 'QTDE_SALAS_UTILIZADAS_DENTRO', 'QTDE_PROF_PEDAGOGIA',\n", + " 'QTDE_PROF_SECRETARIO', 'QTDE_PROF_COORDENADOR',\n", + " 'QTDE_PROF_SERVICOS_GERAIS', 'QTDE_PROF_ALIMENTACAO',\n", + " 'QT_PROF_ADMIN', 'QTDE_PROF_BIBLIOTECARIO', 'QTDE_PROF_SAUDE',\n", + " 'QTDE_PROF_FONO', 'QTDE_PROF_NUTRICIONISTA', 'QTDE_PROF_PSICOLOGO',\n", + " 'QTDE_PROF_SEGURANCA', 'QTDE_PROF_MONITORES',\n", + " 'QTDE_COMPUTADOR_MESA', 'QTDE_COMPUTADOR_PORTATIL',\n", + " 'QTDE_SALAS_UTILIZADAS_CLIMATIZADA',\n", + " 'QTDE_SALAS_UTILIZADAS_ACESSIVEIS', 'QTDE_SALAS_UTILIZADAS_FORA',\n", + " 'QTDE_LOUSA_DIGITAL', 'QTDE_TABLET'], dtype=object)" + ] + }, + "execution_count": 6, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "df.coluna1.unique()" + ] + }, { "cell_type": "code", "execution_count": 9, @@ -594,7 +629,7 @@ }, { "cell_type": "code", - "execution_count": 59, + "execution_count": 38, "id": "81aa6d2b-582d-4982-ae36-35eb7ea3a004", "metadata": { "tags": [] @@ -605,220 +640,329 @@ "output_type": "stream", "text": [ "2007\n", - "+----------------------+--------------------------------------------+\n", - "| BASE | 2008 |\n", - "+======================+============================================+\n", - "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+--------------------------------------------+\n", + "+----------------------+---------------------------------------------------------------+\n", + "| BASE | 2008 |\n", + "+======================+===============================================================+\n", + "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+---------------------------------------------------------------+\n", "NOVAS COLUNAS: []\n", + "NOVAS COLUNAS TRUE: []\n", "COLUNAS SEM DADOS: []\n", - "Acurácia: 1.0\n", + "COLUNAS SEM DADOS TRUE: []\n", + "Acurácia colunas novas: 1.0\n", + "Acurácia colunas vazias: 1.0\n", + "Acurácia colunas matches: 1.0\n", + "\n", + "Acurácia total: 1.0\n", "\n", "2008\n", - "+----------------------+---------------------------------------+\n", - "| BASE | 2009 |\n", - "+======================+=======================================+\n", - "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADOR'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", - "+----------------------+---------------------------------------+\n", + "+----------------------+---------------------------------------------------------------+\n", + "| BASE | 2009 |\n", + "+======================+===============================================================+\n", + "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", + "+----------------------+---------------------------------------------------------------+\n", "NOVAS COLUNAS: []\n", + "NOVAS COLUNAS TRUE: []\n", "COLUNAS SEM DADOS: []\n", - "Acurácia: 1.0\n", + "COLUNAS SEM DADOS TRUE: []\n", + "Acurácia colunas novas: 1.0\n", + "Acurácia colunas vazias: 1.0\n", + "Acurácia colunas matches: 1.0\n", + "\n", + "Acurácia total: 1.0\n", "\n", "2009\n", - "+----------------------+--------------------------------------------+\n", - "| BASE | 2010 |\n", - "+======================+============================================+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_SALAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+--------------------------------------------+\n", + "+----------------------+---------------------------------------------------------------+\n", + "| BASE | 2010 |\n", + "+======================+===============================================================+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_SALAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+---------------------------------------------------------------+\n", "NOVAS COLUNAS: []\n", + "NOVAS COLUNAS TRUE: []\n", "COLUNAS SEM DADOS: []\n", - "Acurácia: 1.0\n", + "COLUNAS SEM DADOS TRUE: []\n", + "Acurácia colunas novas: 1.0\n", + "Acurácia colunas vazias: 1.0\n", + "Acurácia colunas matches: 1.0\n", + "\n", + "Acurácia total: 1.0\n", "\n", "2010\n", - "+----------------------+--------------------------------------------+\n", - "| BASE | 2011 |\n", - "+======================+============================================+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_SALAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+--------------------------------------------+\n", + "+----------------------+----------------------------------------------------------------+\n", + "| BASE | 2011 |\n", + "+======================+================================================================+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+----------------------------------------------------------------+\n", + "| NUM_SALAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+----------------------------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+----------------------------------------------------------------+\n", + "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", + "+----------------------+----------------------------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+----------------------------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO', 'NUM_FUNCIONARIOS'] |\n", + "+----------------------+----------------------------------------------------------------+\n", "NOVAS COLUNAS: []\n", + "NOVAS COLUNAS TRUE: []\n", "COLUNAS SEM DADOS: []\n", - "Acurácia: 1.0\n", + "COLUNAS SEM DADOS TRUE: []\n", + "Acurácia colunas novas: 1.0\n", + "Acurácia colunas vazias: 1.0\n", + "Acurácia colunas matches: 1.0\n", + "\n", + "Acurácia total: 1.0\n", "\n", "2011\n", - "+----------------------+---------------------------------------+\n", - "| BASE | 2012 |\n", - "+======================+=======================================+\n", - "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADOR'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", - "+----------------------+---------------------------------------+\n", + "+----------------------+----------------------------------------------------------------+\n", + "| BASE | 2012 |\n", + "+======================+================================================================+\n", + "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+----------------------------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO', 'NUM_FUNCIONARIOS'] |\n", + "+----------------------+----------------------------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+----------------------------------------------------------------+\n", + "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", + "+----------------------+----------------------------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+----------------------------------------------------------------+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+----------------------------------------------------------------+\n", "NOVAS COLUNAS: []\n", + "NOVAS COLUNAS TRUE: []\n", "COLUNAS SEM DADOS: []\n", - "Acurácia: 1.0\n", + "COLUNAS SEM DADOS TRUE: []\n", + "Acurácia colunas novas: 1.0\n", + "Acurácia colunas vazias: 1.0\n", + "Acurácia colunas matches: 1.0\n", + "\n", + "Acurácia total: 1.0\n", "\n", "2012\n", - "+----------------------+--------------------------------------------+\n", - "| BASE | 2013 |\n", - "+======================+============================================+\n", - "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS'] |\n", - "+----------------------+--------------------------------------------+\n", - "NOVAS COLUNAS: ['NUM_DVD' 'NUM_SOM' 'NUM_TV']\n", - "COLUNAS SEM DADOS: ['NUM_COMPUTADOR']\n", - "Acurácia: 0.8888888888888888\n", + "+----------------------+---------------------------------------------------------+\n", + "| BASE | 2013 |\n", + "+======================+=========================================================+\n", + "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADOR'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADOR'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADPR_ALUNO', 'NUM_FUNCIONARIOS'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "NOVAS COLUNAS: ['NUM_COPIADORA' 'NUM_DVD' 'NUM_FAX' 'NUM_FOTO' 'NUM_IMPRESSORA'\n", + " 'NUM_MULTIMIDIA' 'NUM_PARABOLICA' 'NUM_RETROPROJETOR' 'NUM_SOM' 'NUM_TV'\n", + " 'NUM_VIDEOCASSETE']\n", + "NOVAS COLUNAS TRUE: ['NUM_COPIADORA' 'NUM_DVD' 'NUM_FAX' 'NUM_FOTO' 'NUM_IMPRESSORA'\n", + " 'NUM_MULTIMIDIA' 'NUM_PARABOLICA' 'NUM_RETROPROJETOR' 'NUM_SOM' 'NUM_TV'\n", + " 'NUM_VIDEOCASSETE']\n", + "COLUNAS SEM DADOS: []\n", + "COLUNAS SEM DADOS TRUE: []\n", + "Acurácia colunas novas: 1.0\n", + "Acurácia colunas vazias: 1.0\n", + "Acurácia colunas matches: 0.8333333333333334\n", + "\n", + "Acurácia total: 0.9444444444444445\n", "\n", "2013\n", - "+----------------------+--------------------------------------------+\n", - "| BASE | 2014 |\n", - "+======================+============================================+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_SOM | ['NUM_TV', 'NUM_SOM'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_DVD | ['NUM_DVD'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_TV | ['NUM_TV', 'NUM_SOM'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", - "+----------------------+--------------------------------------------+\n", - "NOVAS COLUNAS: []\n", - "COLUNAS SEM DADOS: []\n", - "Acurácia: 1.0\n", + "+----------------------+---------------------------------------------------------+\n", + "| BASE | 2014 |\n", + "+======================+=========================================================+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADOR'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "| NUM_FOTO | ['NUM_MULTIMIDIA', 'NUM_COPIADORA', 'NUM_FOTO'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADOR'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "| NUM_COPIADORA | ['NUM_MULTIMIDIA', 'NUM_COPIADORA', 'NUM_FOTO'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "| NUM_SOM | ['NUM_TV', 'NUM_SOM', 'NUM_IMPRESSORA'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "| NUM_DVD | ['NUM_DVD', 'NUM_FOTO', 'NUM_COPIADORA'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "| NUM_IMPRESSORA | ['NUM_IMPRESSORA', 'NUM_SOM', 'NUM_TV'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "| NUM_TV | ['NUM_TV', 'NUM_SOM', 'NUM_IMPRESSORA'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "| NUM_MULTIMIDIA | ['NUM_MULTIMIDIA', 'NUM_COPIADORA', 'NUM_FOTO'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", + "+----------------------+---------------------------------------------------------+\n", + "NOVAS COLUNAS: ['NUM_FAX' 'NUM_PARABOLICA' 'NUM_RETROPROJETOR' 'NUM_VIDEOCASSETE']\n", + "NOVAS COLUNAS TRUE: []\n", + "COLUNAS SEM DADOS: ['NUM_FAX' 'NUM_PARABOLICA' 'NUM_RETROPROJETOR' 'NUM_VIDEOCASSETE']\n", + "COLUNAS SEM DADOS TRUE: []\n", + "Acurácia colunas novas: 1.0\n", + "Acurácia colunas vazias: 1.0\n", + "Acurácia colunas matches: 1.0\n", + "\n", + "Acurácia total: 1.0\n", "\n", "2014\n", - "+----------------------+--------------------------------------------+\n", - "| BASE | 2015 |\n", - "+======================+============================================+\n", - "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_SOM | ['NUM_TV', 'NUM_SOM'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_TV | ['NUM_TV'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", - "+----------------------+--------------------------------------------+\n", - "| NUM_DVD | ['NUM_DVD'] |\n", - "+----------------------+--------------------------------------------+\n", - "NOVAS COLUNAS: ['NUM_COMPUTADOR_ADM']\n", - "COLUNAS SEM DADOS: ['NUM_COMPUTADOR_ADM']\n", - "Acurácia: 0.7777777777777778\n", + "+----------------------+---------------------------------------------------------------+\n", + "| BASE | 2015 |\n", + "+======================+===============================================================+\n", + "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_IMPRESSORA | ['NUM_IMPRESSORA', 'NUM_TV', 'NUM_SOM'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_SOM | ['NUM_IMPRESSORA', 'NUM_TV', 'NUM_SOM'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_DVD | ['NUM_MULTIMIDIA', 'NUM_FOTO', 'NUM_COPIADORA'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_TV | ['NUM_IMPRESSORA', 'NUM_TV', 'NUM_SOM'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_FOTO | ['NUM_COPIADORA', 'NUM_FOTO', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COPIADORA | ['NUM_COPIADORA', 'NUM_FOTO', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_MULTIMIDIA | ['NUM_COPIADORA', 'NUM_FOTO', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM', 'NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "NOVAS COLUNAS: ['NUM_DVD' 'NUM_FAX' 'NUM_PARABOLICA' 'NUM_RETROPROJETOR'\n", + " 'NUM_VIDEOCASSETE']\n", + "NOVAS COLUNAS TRUE: []\n", + "COLUNAS SEM DADOS: ['NUM_FAX' 'NUM_PARABOLICA' 'NUM_RETROPROJETOR' 'NUM_VIDEOCASSETE']\n", + "COLUNAS SEM DADOS TRUE: []\n", + "Acurácia colunas novas: 1.0\n", + "Acurácia colunas vazias: 1.0\n", + "Acurácia colunas matches: 0.9230769230769231\n", + "\n", + "Acurácia total: 0.9743589743589745\n", "\n", "2015\n", - "+----------------------+---------------------------------------+\n", - "| BASE | 2016 |\n", - "+======================+=======================================+\n", - "| NUM_SOM | ['NUM_SOM', 'NUM_TV'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_DVD | ['NUM_DVD'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_TV | ['NUM_TV', 'NUM_SOM'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADOR'] |\n", - "+----------------------+---------------------------------------+\n", - "| NUM_COMPUTADOR_ADM | ['NUM_SOM', 'NUM_COMPUTADOR_ADM'] |\n", - "+----------------------+---------------------------------------+\n", - "NOVAS COLUNAS: []\n", - "COLUNAS SEM DADOS: []\n", - "Acurácia: 1.0\n", + "+----------------------+---------------------------------------------------------------+\n", + "| BASE | 2016 |\n", + "+======================+===============================================================+\n", + "| NUM_MULTIMIDIA | ['NUM_FOTO', 'NUM_COPIADORA', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_SOM | ['NUM_SOM', 'NUM_TV', 'NUM_COMPUTADOR_ADM'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_FOTO | ['NUM_FOTO', 'NUM_COPIADORA', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COPIADORA | ['NUM_COPIADORA', 'NUM_FOTO', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_DVD | ['NUM_DVD', 'NUM_IMPRESSORA', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_TV | ['NUM_TV', 'NUM_IMPRESSORA', 'NUM_SOM'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_IMPRESSORA | ['NUM_IMPRESSORA', 'NUM_TV', 'NUM_SOM'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_RETROPROJETOR | ['NUM_RETROPROJETOR', 'NUM_COPIADORA', 'NUM_FOTO'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_FUNCIONARIOS'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADOR_ADM | ['NUM_SOM', 'NUM_COMPUTADOR_ADM', 'NUM_TV'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "NOVAS COLUNAS: ['NUM_FAX' 'NUM_PARABOLICA' 'NUM_VIDEOCASSETE']\n", + "NOVAS COLUNAS TRUE: []\n", + "COLUNAS SEM DADOS: ['NUM_FAX' 'NUM_PARABOLICA' 'NUM_VIDEOCASSETE']\n", + "COLUNAS SEM DADOS TRUE: []\n", + "Acurácia colunas novas: 1.0\n", + "Acurácia colunas vazias: 1.0\n", + "Acurácia colunas matches: 1.0\n", + "\n", + "Acurácia total: 1.0\n", "\n", "2016\n", - "+----------------------+---------------------------------------------+\n", - "| BASE | 2017 |\n", - "+======================+=============================================+\n", - "| NUM_TV | ['NUM_TV', 'NUM_COMPUTADOR_ADM', 'NUM_SOM'] |\n", - "+----------------------+---------------------------------------------+\n", - "| NUM_SOM | ['NUM_SOM', 'NUM_COMPUTADOR_ADM', 'NUM_TV'] |\n", - "+----------------------+---------------------------------------------+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", - "+----------------------+---------------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+---------------------------------------------+\n", - "| NUM_SALAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", - "+----------------------+---------------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADOR'] |\n", - "+----------------------+---------------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", - "+----------------------+---------------------------------------------+\n", - "NOVAS COLUNAS: ['NUM_DVD']\n", - "COLUNAS SEM DADOS: ['NUM_COMPUTADOR_ADM' 'NUM_DVD']\n", - "Acurácia: 0.7777777777777778\n", + "+----------------------+---------------------------------------------------------------+\n", + "| BASE | 2017 |\n", + "+======================+===============================================================+\n", + "| NUM_TV | ['NUM_TV', 'NUM_IMPRESSORA', 'NUM_COMPUTADOR_ADM'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COPIADORA | ['NUM_COPIADORA', 'NUM_FOTO', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_SOM | ['NUM_SOM', 'NUM_COMPUTADOR_ADM', 'NUM_TV'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_MULTIMIDIA | ['NUM_MULTIMIDIA', 'NUM_FOTO', 'NUM_COPIADORA'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_FOTO | ['NUM_FOTO', 'NUM_COPIADORA', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_SALAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_IMPRESSORA | ['NUM_IMPRESSORA', 'NUM_TV', 'NUM_DVD'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_RETROPROJETOR | ['NUM_RETROPROJETOR', 'NUM_COPIADORA', 'NUM_FOTO'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_FUNCIONARIOS'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_DVD | ['NUM_DVD', 'NUM_IMPRESSORA', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "| NUM_COMPUTADOR_ADM | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", + "+----------------------+---------------------------------------------------------------+\n", + "NOVAS COLUNAS: ['NUM_FAX' 'NUM_PARABOLICA' 'NUM_VIDEOCASSETE']\n", + "NOVAS COLUNAS TRUE: []\n", + "COLUNAS SEM DADOS: ['NUM_FAX' 'NUM_PARABOLICA' 'NUM_VIDEOCASSETE']\n", + "COLUNAS SEM DADOS TRUE: []\n", + "Acurácia colunas novas: 1.0\n", + "Acurácia colunas vazias: 1.0\n", + "Acurácia colunas matches: 0.9285714285714286\n", + "\n", + "Acurácia total: 0.9761904761904763\n", "\n", "2017\n", "+----------------------+---------------------------------------+\n", @@ -831,60 +975,152 @@ "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", "+----------------------+---------------------------------------+\n", "NOVAS COLUNAS: []\n", - "COLUNAS SEM DADOS: ['NUM_COMPUTADOR' 'NUM_COMPUTADOR_ADM' 'NUM_COMPUTADPR_ALUNO' 'NUM_DVD'\n", - " 'NUM_SOM' 'NUM_TV']\n", - "Acurácia: 1.0\n", + "NOVAS COLUNAS TRUE: []\n", + "COLUNAS SEM DADOS: ['NUM_COMPUTADOR' 'NUM_COMPUTADOR_ADM' 'NUM_COMPUTADPR_ALUNO'\n", + " 'NUM_COPIADORA' 'NUM_DVD' 'NUM_FAX' 'NUM_FOTO' 'NUM_IMPRESSORA'\n", + " 'NUM_MULTIMIDIA' 'NUM_PARABOLICA' 'NUM_RETROPROJETOR' 'NUM_SOM' 'NUM_TV'\n", + " 'NUM_VIDEOCASSETE']\n", + "COLUNAS SEM DADOS TRUE: ['NUM_COMPUTADOR' 'NUM_COMPUTADOR_ADM' 'NUM_COMPUTADPR_ALUNO'\n", + " 'NUM_COPIADORA' 'NUM_DVD' 'NUM_FAX' 'NUM_FOTO' 'NUM_IMPRESSORA'\n", + " 'NUM_MULTIMIDIA' 'NUM_PARABOLICA' 'NUM_RETROPROJETOR' 'NUM_SOM' 'NUM_TV'\n", + " 'NUM_VIDEOCASSETE']\n", + "Acurácia colunas novas: 1.0\n", + "Acurácia colunas vazias: 1.0\n", + "Acurácia colunas matches: 1.0\n", + "\n", + "Acurácia total: 1.0\n", "\n", "2018\n", - "+----------------------+--------------------------+\n", - "| BASE | 2019 |\n", - "+======================+==========================+\n", - "| NUM_SALAS | ['NUM_SALAS_UTILIZADAS'] |\n", - "+----------------------+--------------------------+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS'] |\n", - "+----------------------+--------------------------+\n", - "NOVAS COLUNAS: ['NUM_DVD' 'NUM_SOM' 'NUM_TV']\n", + "+----------------------+----------------------------------------------------------+\n", + "| BASE | 2019 |\n", + "+======================+==========================================================+\n", + "| NUM_SALAS_UTILIZADAS | ['QTDE_SALAS_UTILIZADAS_DENTRO', 'NUM_SALAS_UTILIZADAS'] |\n", + "+----------------------+----------------------------------------------------------+\n", + "| NUM_SALAS | ['NUM_SALAS_UTILIZADAS', 'QTDE_SALAS_UTILIZADAS_DENTRO'] |\n", + "+----------------------+----------------------------------------------------------+\n", + "NOVAS COLUNAS: ['NUM_DVD' 'NUM_MULTIMIDIA' 'NUM_SOM' 'NUM_TV' 'QTDE_PROF_ALIMENTACAO'\n", + " 'QTDE_PROF_BIBLIOTECARIO' 'QTDE_PROF_COORDENADOR' 'QTDE_PROF_FONO'\n", + " 'QTDE_PROF_MONITORES' 'QTDE_PROF_NUTRICIONISTA' 'QTDE_PROF_PEDAGOGIA'\n", + " 'QTDE_PROF_PSICOLOGO' 'QTDE_PROF_SAUDE' 'QTDE_PROF_SECRETARIO'\n", + " 'QTDE_PROF_SEGURANCA' 'QTDE_PROF_SERVICOS_GERAIS' 'QT_PROF_ADMIN']\n", + "NOVAS COLUNAS TRUE: ['NUM_DVD' 'NUM_MULTIMIDIA' 'NUM_SOM' 'NUM_TV' 'QTDE_PROF_ALIMENTACAO'\n", + " 'QTDE_PROF_BIBLIOTECARIO' 'QTDE_PROF_COORDENADOR' 'QTDE_PROF_FONO'\n", + " 'QTDE_PROF_MONITORES' 'QTDE_PROF_NUTRICIONISTA' 'QTDE_PROF_PEDAGOGIA'\n", + " 'QTDE_PROF_PSICOLOGO' 'QTDE_PROF_SAUDE' 'QTDE_PROF_SECRETARIO'\n", + " 'QTDE_PROF_SEGURANCA' 'QTDE_PROF_SERVICOS_GERAIS'\n", + " 'QTDE_SALAS_UTILIZADAS_DENTRO' 'QT_PROF_ADMIN']\n", "COLUNAS SEM DADOS: ['NUM_FUNCIONARIOS']\n", - "Acurácia: 0.8333333333333334\n", + "COLUNAS SEM DADOS TRUE: ['NUM_FUNCIONARIOS' 'NUM_SALAS']\n", + "Acurácia colunas novas: 0.9444444444444444\n", + "Acurácia colunas vazias: 0.5\n", + "Acurácia colunas matches: 0.5\n", + "\n", + "Acurácia total: 0.6481481481481481\n", "\n", "2019\n", - "+----------------------+--------------------------+\n", - "| BASE | 2020 |\n", - "+======================+==========================+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS'] |\n", - "+----------------------+--------------------------+\n", - "| NUM_SOM | ['NUM_SOM', 'NUM_TV'] |\n", - "+----------------------+--------------------------+\n", - "| NUM_TV | ['NUM_TV', 'NUM_SOM'] |\n", - "+----------------------+--------------------------+\n", - "| NUM_DVD | ['NUM_DVD', 'NUM_TV'] |\n", - "+----------------------+--------------------------+\n", - "NOVAS COLUNAS: []\n", - "COLUNAS SEM DADOS: []\n", - "Acurácia: 1.0\n", + "+------------------------------+---------------------------------------------------------------------------------------+\n", + "| BASE | 2020 |\n", + "+==============================+=======================================================================================+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'QTDE_SALAS_UTILIZADAS_DENTRO', 'QTDE_COMPUTADOR_MESA'] |\n", + "+------------------------------+---------------------------------------------------------------------------------------+\n", + "| NUM_SOM | ['NUM_SOM', 'QTDE_SALAS_UTILIZADAS_CLIMATIZADA', 'NUM_TV'] |\n", + "+------------------------------+---------------------------------------------------------------------------------------+\n", + "| QTDE_SALAS_UTILIZADAS_DENTRO | ['QTDE_SALAS_UTILIZADAS_DENTRO', 'NUM_SALAS_UTILIZADAS', 'QTDE_COMPUTADOR_MESA'] |\n", + "+------------------------------+---------------------------------------------------------------------------------------+\n", + "| NUM_MULTIMIDIA | ['NUM_MULTIMIDIA', 'QTDE_PROF_COORDENADOR', 'QTDE_COMPUTADOR_PORTATIL'] |\n", + "+------------------------------+---------------------------------------------------------------------------------------+\n", + "| QTDE_PROF_PEDAGOGIA | ['NUM_DVD', 'QTDE_PROF_PEDAGOGIA', 'QT_PROF_ADMIN'] |\n", + "+------------------------------+---------------------------------------------------------------------------------------+\n", + "| QTDE_PROF_SECRETARIO | ['QTDE_PROF_SECRETARIO', 'QTDE_COMPUTADOR_PORTATIL', 'QTDE_PROF_COORDENADOR'] |\n", + "+------------------------------+---------------------------------------------------------------------------------------+\n", + "| NUM_TV | ['NUM_TV', 'QTDE_PROF_ALIMENTACAO', 'NUM_SOM'] |\n", + "+------------------------------+---------------------------------------------------------------------------------------+\n", + "| QTDE_PROF_COORDENADOR | ['QTDE_PROF_COORDENADOR', 'QTDE_COMPUTADOR_PORTATIL', 'QTDE_PROF_SECRETARIO'] |\n", + "+------------------------------+---------------------------------------------------------------------------------------+\n", + "| NUM_DVD | ['NUM_DVD', 'QTDE_PROF_PEDAGOGIA', 'QT_PROF_ADMIN'] |\n", + "+------------------------------+---------------------------------------------------------------------------------------+\n", + "| QTDE_PROF_SERVICOS_GERAIS | ['QTDE_PROF_SERVICOS_GERAIS', 'QTDE_COMPUTADOR_MESA', 'QTDE_SALAS_UTILIZADAS_DENTRO'] |\n", + "+------------------------------+---------------------------------------------------------------------------------------+\n", + "| QTDE_PROF_ALIMENTACAO | ['QTDE_PROF_ALIMENTACAO', 'NUM_TV', 'QT_PROF_ADMIN'] |\n", + "+------------------------------+---------------------------------------------------------------------------------------+\n", + "| QT_PROF_ADMIN | ['QT_PROF_ADMIN', 'QTDE_PROF_ALIMENTACAO', 'NUM_TV'] |\n", + "+------------------------------+---------------------------------------------------------------------------------------+\n", + "NOVAS COLUNAS: ['QTDE_LOUSA_DIGITAL' 'QTDE_PROF_BIBLIOTECARIO' 'QTDE_PROF_FONO'\n", + " 'QTDE_PROF_MONITORES' 'QTDE_PROF_NUTRICIONISTA' 'QTDE_PROF_PSICOLOGO'\n", + " 'QTDE_PROF_SAUDE' 'QTDE_PROF_SEGURANCA'\n", + " 'QTDE_SALAS_UTILIZADAS_ACESSIVEIS' 'QTDE_SALAS_UTILIZADAS_FORA'\n", + " 'QTDE_TABLET']\n", + "NOVAS COLUNAS TRUE: ['QTDE_COMPUTADOR_MESA' 'QTDE_COMPUTADOR_PORTATIL' 'QTDE_LOUSA_DIGITAL'\n", + " 'QTDE_SALAS_UTILIZADAS_ACESSIVEIS' 'QTDE_SALAS_UTILIZADAS_CLIMATIZADA'\n", + " 'QTDE_SALAS_UTILIZADAS_FORA' 'QTDE_TABLET']\n", + "COLUNAS SEM DADOS: ['QTDE_PROF_BIBLIOTECARIO' 'QTDE_PROF_FONO' 'QTDE_PROF_MONITORES'\n", + " 'QTDE_PROF_NUTRICIONISTA' 'QTDE_PROF_PSICOLOGO' 'QTDE_PROF_SAUDE'\n", + " 'QTDE_PROF_SEGURANCA']\n", + "COLUNAS SEM DADOS TRUE: []\n", + "Acurácia colunas novas: 0.5714285714285714\n", + "Acurácia colunas vazias: 1.0\n", + "Acurácia colunas matches: 1.0\n", + "\n", + "Acurácia total: 0.8571428571428571\n", "\n", "2020\n", - "+----------------------+--------------------------+\n", - "| BASE | 2021 |\n", - "+======================+==========================+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS'] |\n", - "+----------------------+--------------------------+\n", - "| NUM_DVD | ['NUM_DVD', 'NUM_TV'] |\n", - "+----------------------+--------------------------+\n", - "| NUM_TV | ['NUM_TV', 'NUM_SOM'] |\n", - "+----------------------+--------------------------+\n", - "| NUM_SOM | ['NUM_SOM', 'NUM_TV'] |\n", - "+----------------------+--------------------------+\n", - "NOVAS COLUNAS: []\n", - "COLUNAS SEM DADOS: []\n", - "Acurácia: 1.0\n", + "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "| BASE | 2021 |\n", + "+===================================+============================================================================================+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'QTDE_SALAS_UTILIZADAS_DENTRO', 'QTDE_COMPUTADOR_MESA'] |\n", + "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "| QTDE_PROF_COORDENADOR | ['QTDE_COMPUTADOR_PORTATIL', 'QTDE_PROF_COORDENADOR', 'QTDE_PROF_SECRETARIO'] |\n", + "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "| QTDE_SALAS_UTILIZADAS_DENTRO | ['QTDE_SALAS_UTILIZADAS_DENTRO', 'NUM_SALAS_UTILIZADAS', 'QTDE_COMPUTADOR_MESA'] |\n", + "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "| QTDE_PROF_SECRETARIO | ['QTDE_PROF_SECRETARIO', 'QTDE_COMPUTADOR_PORTATIL', 'QTDE_PROF_COORDENADOR'] |\n", + "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "| QTDE_PROF_PEDAGOGIA | ['NUM_DVD', 'QTDE_PROF_PEDAGOGIA', 'NUM_MULTIMIDIA'] |\n", + "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "| QT_PROF_ADMIN | ['QT_PROF_ADMIN', 'QTDE_PROF_ALIMENTACAO', 'QTDE_SALAS_UTILIZADAS_ACESSIVEIS'] |\n", + "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "| NUM_DVD | ['QTDE_PROF_PEDAGOGIA', 'NUM_DVD', 'QTDE_SALAS_UTILIZADAS_ACESSIVEIS'] |\n", + "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "| QTDE_COMPUTADOR_MESA | ['QTDE_COMPUTADOR_MESA', 'QTDE_SALAS_UTILIZADAS_DENTRO', 'NUM_SALAS_UTILIZADAS'] |\n", + "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "| NUM_TV | ['NUM_TV', 'QTDE_PROF_ALIMENTACAO', 'QT_PROF_ADMIN'] |\n", + "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "| QTDE_COMPUTADOR_PORTATIL | ['QTDE_COMPUTADOR_PORTATIL', 'QTDE_PROF_COORDENADOR', 'QTDE_PROF_SECRETARIO'] |\n", + "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "| QTDE_PROF_ALIMENTACAO | ['QTDE_PROF_ALIMENTACAO', 'NUM_TV', 'QT_PROF_ADMIN'] |\n", + "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "| NUM_SOM | ['NUM_SOM', 'NUM_TV', 'QTDE_PROF_SERVICOS_GERAIS'] |\n", + "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "| QTDE_PROF_SERVICOS_GERAIS | ['QTDE_SALAS_UTILIZADAS_CLIMATIZADA', 'QTDE_PROF_SERVICOS_GERAIS', 'QTDE_COMPUTADOR_MESA'] |\n", + "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "| QTDE_SALAS_UTILIZADAS_CLIMATIZADA | ['NUM_SOM', 'QTDE_PROF_SERVICOS_GERAIS', 'QTDE_SALAS_UTILIZADAS_CLIMATIZADA'] |\n", + "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "| NUM_MULTIMIDIA | ['QTDE_PROF_COORDENADOR', 'QTDE_COMPUTADOR_PORTATIL', 'NUM_MULTIMIDIA'] |\n", + "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "| QTDE_SALAS_UTILIZADAS_ACESSIVEIS | ['QTDE_PROF_SECRETARIO', 'QTDE_COMPUTADOR_PORTATIL', 'QTDE_PROF_COORDENADOR'] |\n", + "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "NOVAS COLUNAS: ['QTDE_LOUSA_DIGITAL' 'QTDE_PROF_BIBLIOTECARIO' 'QTDE_PROF_FONO'\n", + " 'QTDE_PROF_MONITORES' 'QTDE_PROF_NUTRICIONISTA' 'QTDE_PROF_PSICOLOGO'\n", + " 'QTDE_PROF_SAUDE' 'QTDE_PROF_SEGURANCA' 'QTDE_SALAS_UTILIZADAS_FORA'\n", + " 'QTDE_TABLET']\n", + "NOVAS COLUNAS TRUE: []\n", + "COLUNAS SEM DADOS: ['QTDE_LOUSA_DIGITAL' 'QTDE_PROF_BIBLIOTECARIO' 'QTDE_PROF_FONO'\n", + " 'QTDE_PROF_MONITORES' 'QTDE_PROF_NUTRICIONISTA' 'QTDE_PROF_PSICOLOGO'\n", + " 'QTDE_PROF_SAUDE' 'QTDE_PROF_SEGURANCA' 'QTDE_SALAS_UTILIZADAS_FORA'\n", + " 'QTDE_TABLET']\n", + "COLUNAS SEM DADOS TRUE: []\n", + "Acurácia colunas novas: 1.0\n", + "Acurácia colunas vazias: 1.0\n", + "Acurácia colunas matches: 0.9375\n", + "\n", + "Acurácia total: 0.9791666666666666\n", "\n" ] } ], "source": [ "anos = df.ano_coluna1.unique()\n", - "threshold = 0.4\n", + "threshold = 0.8\n", "\n", "# Itera sobre todos os anos\n", "for ano in anos:\n", @@ -919,21 +1155,46 @@ " no_data_columns = np.setdiff1d(base_columns, prev_col) # Colunas que não receram dados encontradas pelo algoritmo\n", " \n", " # Calcula acurácia\n", - " acuracia = 0\n", + " acuracia_matches = 0\n", + " qt_matches = 0\n", + " acuracia_novas_colunas = 0\n", + " acuracia_colunas_vazias = 0\n", + "\n", + " # Acurácia matches\n", " acertos = 0\n", " for res in resultados:\n", + " if(len(res) == 0):\n", + " continue\n", " for i in res:\n", " if i[0] == i[2]:\n", " acertos += 1\n", " break\n", + " qt_matches += 1\n", + " acuracia_matches = acertos / qt_matches\n", + "\n", + " # Acurácia novas colunas\n", + " acertos = 0\n", " for new in found_new_columns:\n", " if new in true_new_columns:\n", " acertos += 1\n", + " if(len(true_new_columns) == 0):\n", + " acuracia_novas_colunas = 1.0\n", + " else:\n", + " acuracia_novas_colunas = acertos / len(true_new_columns)\n", + "\n", + " # Acurácia colunas vazias\n", + " acertos = 0\n", " for no_data in no_data_columns:\n", " if no_data in true_empty_columns:\n", " acertos += 1\n", - " acuracia = acertos / len(all_columns) \n", - " \n", + " if(len(true_empty_columns) == 0):\n", + " acuracia_colunas_vazias = 1.0\n", + " else:\n", + " acuracia_colunas_vazias = acertos / len(true_empty_columns)\n", + "\n", + " # Acurácia total\n", + " acuracia_total = (acuracia_matches + acuracia_colunas_vazias + acuracia_novas_colunas) / 3\n", + "\n", " # Imprime resultados\n", " print(ano)\n", " matches = []\n", @@ -946,8 +1207,13 @@ " matches.append([i[0], match]) \n", " print(tabulate(matches, headers=['BASE', ano+1], tablefmt='grid'))\n", " print(f'NOVAS COLUNAS: {found_new_columns}')\n", + " print(f'NOVAS COLUNAS TRUE: {true_new_columns}')\n", " print(f'COLUNAS SEM DADOS: {no_data_columns}')\n", - " print(f'Acurácia: {acuracia}\\n')\n", + " print(f'COLUNAS SEM DADOS TRUE: {true_empty_columns}')\n", + " print(f'Acurácia colunas novas: {acuracia_novas_colunas}')\n", + " print(f'Acurácia colunas vazias: {acuracia_colunas_vazias}')\n", + " print(f'Acurácia colunas matches: {acuracia_matches}\\n')\n", + " print(f'Acurácia total: {acuracia_total}\\n')\n", " \n", " " ]