From 4d667500db0ede7e86b877affdf5773be488429e Mon Sep 17 00:00:00 2001 From: dha21 <dha21@inf.ufpr.br> Date: Tue, 7 May 2024 19:16:24 -1200 Subject: [PATCH] acuracia dos matches arrumada --- analise_resultados_muriki.ipynb | 579 ++++++++++++++++---------------- 1 file changed, 286 insertions(+), 293 deletions(-) diff --git a/analise_resultados_muriki.ipynb b/analise_resultados_muriki.ipynb index 2d5623e..018a446 100644 --- a/analise_resultados_muriki.ipynb +++ b/analise_resultados_muriki.ipynb @@ -629,7 +629,7 @@ }, { "cell_type": "code", - "execution_count": 38, + "execution_count": 41, "id": "81aa6d2b-582d-4982-ae36-35eb7ea3a004", "metadata": { "tags": [] @@ -640,21 +640,21 @@ "output_type": "stream", "text": [ "2007\n", - "+----------------------+---------------------------------------------------------------+\n", - "| BASE | 2008 |\n", - "+======================+===============================================================+\n", - "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------------------------------+\n", + "+----------------------+--------------------------------------------+\n", + "| BASE | 2008 |\n", + "+======================+============================================+\n", + "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+--------------------------------------------+\n", "NOVAS COLUNAS: []\n", "NOVAS COLUNAS TRUE: []\n", "COLUNAS SEM DADOS: []\n", @@ -666,21 +666,21 @@ "Acurácia total: 1.0\n", "\n", "2008\n", - "+----------------------+---------------------------------------------------------------+\n", - "| BASE | 2009 |\n", - "+======================+===============================================================+\n", - "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", - "+----------------------+---------------------------------------------------------------+\n", + "+----------------------+--------------------------------------------+\n", + "| BASE | 2009 |\n", + "+======================+============================================+\n", + "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", + "+----------------------+--------------------------------------------+\n", "NOVAS COLUNAS: []\n", "NOVAS COLUNAS TRUE: []\n", "COLUNAS SEM DADOS: []\n", @@ -692,21 +692,21 @@ "Acurácia total: 1.0\n", "\n", "2009\n", - "+----------------------+---------------------------------------------------------------+\n", - "| BASE | 2010 |\n", - "+======================+===============================================================+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_SALAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", - "+----------------------+---------------------------------------------------------------+\n", + "+----------------------+--------------------------------------------+\n", + "| BASE | 2010 |\n", + "+======================+============================================+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_SALAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+--------------------------------------------+\n", "NOVAS COLUNAS: []\n", "NOVAS COLUNAS TRUE: []\n", "COLUNAS SEM DADOS: []\n", @@ -718,21 +718,21 @@ "Acurácia total: 1.0\n", "\n", "2010\n", - "+----------------------+----------------------------------------------------------------+\n", - "| BASE | 2011 |\n", - "+======================+================================================================+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+----------------------------------------------------------------+\n", - "| NUM_SALAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+----------------------------------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+----------------------------------------------------------------+\n", - "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", - "+----------------------+----------------------------------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", - "+----------------------+----------------------------------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO', 'NUM_FUNCIONARIOS'] |\n", - "+----------------------+----------------------------------------------------------------+\n", + "+----------------------+--------------------------------------------+\n", + "| BASE | 2011 |\n", + "+======================+============================================+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_SALAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+--------------------------------------------+\n", "NOVAS COLUNAS: []\n", "NOVAS COLUNAS TRUE: []\n", "COLUNAS SEM DADOS: []\n", @@ -744,21 +744,21 @@ "Acurácia total: 1.0\n", "\n", "2011\n", - "+----------------------+----------------------------------------------------------------+\n", - "| BASE | 2012 |\n", - "+======================+================================================================+\n", - "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+----------------------------------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO', 'NUM_FUNCIONARIOS'] |\n", - "+----------------------+----------------------------------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", - "+----------------------+----------------------------------------------------------------+\n", - "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", - "+----------------------+----------------------------------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+----------------------------------------------------------------+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+----------------------------------------------------------------+\n", + "+----------------------+--------------------------------------------+\n", + "| BASE | 2012 |\n", + "+======================+============================================+\n", + "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADOR'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+--------------------------------------------+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", + "+----------------------+--------------------------------------------+\n", "NOVAS COLUNAS: []\n", "NOVAS COLUNAS TRUE: []\n", "COLUNAS SEM DADOS: []\n", @@ -779,19 +779,17 @@ "+----------------------+---------------------------------------------------------+\n", "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", "+----------------------+---------------------------------------------------------+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADOR'] |\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS'] |\n", "+----------------------+---------------------------------------------------------+\n", "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADOR'] |\n", "+----------------------+---------------------------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADPR_ALUNO', 'NUM_FUNCIONARIOS'] |\n", - "+----------------------+---------------------------------------------------------+\n", "NOVAS COLUNAS: ['NUM_COPIADORA' 'NUM_DVD' 'NUM_FAX' 'NUM_FOTO' 'NUM_IMPRESSORA'\n", " 'NUM_MULTIMIDIA' 'NUM_PARABOLICA' 'NUM_RETROPROJETOR' 'NUM_SOM' 'NUM_TV'\n", " 'NUM_VIDEOCASSETE']\n", "NOVAS COLUNAS TRUE: ['NUM_COPIADORA' 'NUM_DVD' 'NUM_FAX' 'NUM_FOTO' 'NUM_IMPRESSORA'\n", " 'NUM_MULTIMIDIA' 'NUM_PARABOLICA' 'NUM_RETROPROJETOR' 'NUM_SOM' 'NUM_TV'\n", " 'NUM_VIDEOCASSETE']\n", - "COLUNAS SEM DADOS: []\n", + "COLUNAS SEM DADOS: ['NUM_COMPUTADOR']\n", "COLUNAS SEM DADOS TRUE: []\n", "Acurácia colunas novas: 1.0\n", "Acurácia colunas vazias: 1.0\n", @@ -800,169 +798,166 @@ "Acurácia total: 0.9444444444444445\n", "\n", "2013\n", - "+----------------------+---------------------------------------------------------+\n", - "| BASE | 2014 |\n", - "+======================+=========================================================+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADOR'] |\n", - "+----------------------+---------------------------------------------------------+\n", - "| NUM_FOTO | ['NUM_MULTIMIDIA', 'NUM_COPIADORA', 'NUM_FOTO'] |\n", - "+----------------------+---------------------------------------------------------+\n", - "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADOR'] |\n", - "+----------------------+---------------------------------------------------------+\n", - "| NUM_COPIADORA | ['NUM_MULTIMIDIA', 'NUM_COPIADORA', 'NUM_FOTO'] |\n", - "+----------------------+---------------------------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------------------------+\n", - "| NUM_SOM | ['NUM_TV', 'NUM_SOM', 'NUM_IMPRESSORA'] |\n", - "+----------------------+---------------------------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+---------------------------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", - "+----------------------+---------------------------------------------------------+\n", - "| NUM_DVD | ['NUM_DVD', 'NUM_FOTO', 'NUM_COPIADORA'] |\n", - "+----------------------+---------------------------------------------------------+\n", - "| NUM_IMPRESSORA | ['NUM_IMPRESSORA', 'NUM_SOM', 'NUM_TV'] |\n", - "+----------------------+---------------------------------------------------------+\n", - "| NUM_TV | ['NUM_TV', 'NUM_SOM', 'NUM_IMPRESSORA'] |\n", - "+----------------------+---------------------------------------------------------+\n", - "| NUM_MULTIMIDIA | ['NUM_MULTIMIDIA', 'NUM_COPIADORA', 'NUM_FOTO'] |\n", - "+----------------------+---------------------------------------------------------+\n", - "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", - "+----------------------+---------------------------------------------------------+\n", + "+----------------------+-------------------------------------------------+\n", + "| BASE | 2014 |\n", + "+======================+=================================================+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_FOTO | ['NUM_MULTIMIDIA', 'NUM_COPIADORA', 'NUM_FOTO'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_COPIADORA | ['NUM_MULTIMIDIA', 'NUM_COPIADORA', 'NUM_FOTO'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_SOM | ['NUM_TV', 'NUM_SOM', 'NUM_IMPRESSORA'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_DVD | ['NUM_DVD', 'NUM_FOTO', 'NUM_COPIADORA'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_IMPRESSORA | ['NUM_IMPRESSORA', 'NUM_SOM', 'NUM_TV'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_TV | ['NUM_TV', 'NUM_SOM', 'NUM_IMPRESSORA'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_MULTIMIDIA | ['NUM_MULTIMIDIA', 'NUM_COPIADORA', 'NUM_FOTO'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM'] |\n", + "+----------------------+-------------------------------------------------+\n", "NOVAS COLUNAS: ['NUM_FAX' 'NUM_PARABOLICA' 'NUM_RETROPROJETOR' 'NUM_VIDEOCASSETE']\n", "NOVAS COLUNAS TRUE: []\n", "COLUNAS SEM DADOS: ['NUM_FAX' 'NUM_PARABOLICA' 'NUM_RETROPROJETOR' 'NUM_VIDEOCASSETE']\n", "COLUNAS SEM DADOS TRUE: []\n", "Acurácia colunas novas: 1.0\n", "Acurácia colunas vazias: 1.0\n", - "Acurácia colunas matches: 1.0\n", + "Acurácia colunas matches: 0.7647058823529411\n", "\n", - "Acurácia total: 1.0\n", + "Acurácia total: 0.9215686274509803\n", "\n", "2014\n", - "+----------------------+---------------------------------------------------------------+\n", - "| BASE | 2015 |\n", - "+======================+===============================================================+\n", - "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_IMPRESSORA | ['NUM_IMPRESSORA', 'NUM_TV', 'NUM_SOM'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_SOM | ['NUM_IMPRESSORA', 'NUM_TV', 'NUM_SOM'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_DVD | ['NUM_MULTIMIDIA', 'NUM_FOTO', 'NUM_COPIADORA'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_TV | ['NUM_IMPRESSORA', 'NUM_TV', 'NUM_SOM'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_FOTO | ['NUM_COPIADORA', 'NUM_FOTO', 'NUM_MULTIMIDIA'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COPIADORA | ['NUM_COPIADORA', 'NUM_FOTO', 'NUM_MULTIMIDIA'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_MULTIMIDIA | ['NUM_COPIADORA', 'NUM_FOTO', 'NUM_MULTIMIDIA'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADOR_ADM | ['NUM_COMPUTADOR_ADM', 'NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "NOVAS COLUNAS: ['NUM_DVD' 'NUM_FAX' 'NUM_PARABOLICA' 'NUM_RETROPROJETOR'\n", - " 'NUM_VIDEOCASSETE']\n", + "+----------------------+-------------------------------------------------+\n", + "| BASE | 2015 |\n", + "+======================+=================================================+\n", + "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_IMPRESSORA | ['NUM_IMPRESSORA', 'NUM_TV', 'NUM_SOM'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_SOM | ['NUM_IMPRESSORA', 'NUM_TV', 'NUM_SOM'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_DVD | ['NUM_MULTIMIDIA', 'NUM_FOTO', 'NUM_COPIADORA'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_TV | ['NUM_IMPRESSORA', 'NUM_TV', 'NUM_SOM'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADPR_ALUNO'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_FOTO | ['NUM_COPIADORA', 'NUM_FOTO', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_COPIADORA | ['NUM_COPIADORA', 'NUM_FOTO', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_MULTIMIDIA | ['NUM_COPIADORA', 'NUM_FOTO', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+-------------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+-------------------------------------------------+\n", + "NOVAS COLUNAS: ['NUM_COMPUTADOR_ADM' 'NUM_DVD' 'NUM_FAX' 'NUM_PARABOLICA'\n", + " 'NUM_RETROPROJETOR' 'NUM_VIDEOCASSETE']\n", "NOVAS COLUNAS TRUE: []\n", - "COLUNAS SEM DADOS: ['NUM_FAX' 'NUM_PARABOLICA' 'NUM_RETROPROJETOR' 'NUM_VIDEOCASSETE']\n", + "COLUNAS SEM DADOS: ['NUM_COMPUTADOR_ADM' 'NUM_FAX' 'NUM_PARABOLICA' 'NUM_RETROPROJETOR'\n", + " 'NUM_VIDEOCASSETE']\n", "COLUNAS SEM DADOS TRUE: []\n", "Acurácia colunas novas: 1.0\n", "Acurácia colunas vazias: 1.0\n", - "Acurácia colunas matches: 0.9230769230769231\n", + "Acurácia colunas matches: 0.5882352941176471\n", "\n", - "Acurácia total: 0.9743589743589745\n", + "Acurácia total: 0.8627450980392157\n", "\n", "2015\n", - "+----------------------+---------------------------------------------------------------+\n", - "| BASE | 2016 |\n", - "+======================+===============================================================+\n", - "| NUM_MULTIMIDIA | ['NUM_FOTO', 'NUM_COPIADORA', 'NUM_MULTIMIDIA'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_SOM | ['NUM_SOM', 'NUM_TV', 'NUM_COMPUTADOR_ADM'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_FOTO | ['NUM_FOTO', 'NUM_COPIADORA', 'NUM_MULTIMIDIA'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COPIADORA | ['NUM_COPIADORA', 'NUM_FOTO', 'NUM_MULTIMIDIA'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_DVD | ['NUM_DVD', 'NUM_IMPRESSORA', 'NUM_MULTIMIDIA'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_TV | ['NUM_TV', 'NUM_IMPRESSORA', 'NUM_SOM'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_IMPRESSORA | ['NUM_IMPRESSORA', 'NUM_TV', 'NUM_SOM'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_RETROPROJETOR | ['NUM_RETROPROJETOR', 'NUM_COPIADORA', 'NUM_FOTO'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_FUNCIONARIOS'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADOR_ADM | ['NUM_SOM', 'NUM_COMPUTADOR_ADM', 'NUM_TV'] |\n", - "+----------------------+---------------------------------------------------------------+\n", + "+----------------------+----------------------------------------------------+\n", + "| BASE | 2016 |\n", + "+======================+====================================================+\n", + "| NUM_MULTIMIDIA | ['NUM_FOTO', 'NUM_COPIADORA', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_SOM | ['NUM_SOM', 'NUM_TV'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_FOTO | ['NUM_FOTO', 'NUM_COPIADORA', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_COPIADORA | ['NUM_COPIADORA', 'NUM_FOTO', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_SALAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_DVD | ['NUM_DVD'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS', 'NUM_SALAS_UTILIZADAS'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_TV | ['NUM_TV', 'NUM_IMPRESSORA', 'NUM_SOM'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_IMPRESSORA | ['NUM_IMPRESSORA', 'NUM_TV', 'NUM_SOM'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_RETROPROJETOR | ['NUM_RETROPROJETOR', 'NUM_COPIADORA', 'NUM_FOTO'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADOR'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_COMPUTADOR_ADM | ['NUM_SOM', 'NUM_COMPUTADOR_ADM'] |\n", + "+----------------------+----------------------------------------------------+\n", "NOVAS COLUNAS: ['NUM_FAX' 'NUM_PARABOLICA' 'NUM_VIDEOCASSETE']\n", "NOVAS COLUNAS TRUE: []\n", "COLUNAS SEM DADOS: ['NUM_FAX' 'NUM_PARABOLICA' 'NUM_VIDEOCASSETE']\n", "COLUNAS SEM DADOS TRUE: []\n", "Acurácia colunas novas: 1.0\n", "Acurácia colunas vazias: 1.0\n", - "Acurácia colunas matches: 1.0\n", + "Acurácia colunas matches: 0.8235294117647058\n", "\n", - "Acurácia total: 1.0\n", + "Acurácia total: 0.9411764705882352\n", "\n", "2016\n", - "+----------------------+---------------------------------------------------------------+\n", - "| BASE | 2017 |\n", - "+======================+===============================================================+\n", - "| NUM_TV | ['NUM_TV', 'NUM_IMPRESSORA', 'NUM_COMPUTADOR_ADM'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COPIADORA | ['NUM_COPIADORA', 'NUM_FOTO', 'NUM_MULTIMIDIA'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_SOM | ['NUM_SOM', 'NUM_COMPUTADOR_ADM', 'NUM_TV'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_MULTIMIDIA | ['NUM_MULTIMIDIA', 'NUM_FOTO', 'NUM_COPIADORA'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_FOTO | ['NUM_FOTO', 'NUM_COPIADORA', 'NUM_MULTIMIDIA'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_SALAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS', 'NUM_COMPUTADPR_ALUNO'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_IMPRESSORA | ['NUM_IMPRESSORA', 'NUM_TV', 'NUM_DVD'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_RETROPROJETOR | ['NUM_RETROPROJETOR', 'NUM_COPIADORA', 'NUM_FOTO'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADOR | ['NUM_COMPUTADOR', 'NUM_FUNCIONARIOS'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_DVD | ['NUM_DVD', 'NUM_IMPRESSORA', 'NUM_MULTIMIDIA'] |\n", - "+----------------------+---------------------------------------------------------------+\n", - "| NUM_COMPUTADOR_ADM | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", - "+----------------------+---------------------------------------------------------------+\n", + "+----------------------+----------------------------------------------------+\n", + "| BASE | 2017 |\n", + "+======================+====================================================+\n", + "| NUM_TV | ['NUM_TV', 'NUM_IMPRESSORA', 'NUM_COMPUTADOR_ADM'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_COPIADORA | ['NUM_COPIADORA', 'NUM_FOTO', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_SOM | ['NUM_SOM', 'NUM_COMPUTADOR_ADM', 'NUM_TV'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_MULTIMIDIA | ['NUM_MULTIMIDIA', 'NUM_FOTO', 'NUM_COPIADORA'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_FOTO | ['NUM_FOTO', 'NUM_COPIADORA', 'NUM_MULTIMIDIA'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_FUNCIONARIOS | ['NUM_FUNCIONARIOS'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_SALAS | ['NUM_SALAS_UTILIZADAS', 'NUM_SALAS'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_IMPRESSORA | ['NUM_IMPRESSORA', 'NUM_TV', 'NUM_DVD'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_RETROPROJETOR | ['NUM_RETROPROJETOR', 'NUM_COPIADORA', 'NUM_FOTO'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_COMPUTADOR | ['NUM_COMPUTADOR'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_COMPUTADPR_ALUNO | ['NUM_COMPUTADPR_ALUNO', 'NUM_COMPUTADOR'] |\n", + "+----------------------+----------------------------------------------------+\n", + "| NUM_DVD | ['NUM_DVD'] |\n", + "+----------------------+----------------------------------------------------+\n", "NOVAS COLUNAS: ['NUM_FAX' 'NUM_PARABOLICA' 'NUM_VIDEOCASSETE']\n", "NOVAS COLUNAS TRUE: []\n", - "COLUNAS SEM DADOS: ['NUM_FAX' 'NUM_PARABOLICA' 'NUM_VIDEOCASSETE']\n", + "COLUNAS SEM DADOS: ['NUM_COMPUTADOR_ADM' 'NUM_FAX' 'NUM_PARABOLICA' 'NUM_VIDEOCASSETE']\n", "COLUNAS SEM DADOS TRUE: []\n", "Acurácia colunas novas: 1.0\n", "Acurácia colunas vazias: 1.0\n", - "Acurácia colunas matches: 0.9285714285714286\n", + "Acurácia colunas matches: 0.7647058823529411\n", "\n", - "Acurácia total: 0.9761904761904763\n", + "Acurácia total: 0.9215686274509803\n", "\n", "2017\n", "+----------------------+---------------------------------------+\n", @@ -1013,38 +1008,38 @@ "COLUNAS SEM DADOS TRUE: ['NUM_FUNCIONARIOS' 'NUM_SALAS']\n", "Acurácia colunas novas: 0.9444444444444444\n", "Acurácia colunas vazias: 0.5\n", - "Acurácia colunas matches: 0.5\n", + "Acurácia colunas matches: 1.0\n", "\n", - "Acurácia total: 0.6481481481481481\n", + "Acurácia total: 0.8148148148148149\n", "\n", "2019\n", - "+------------------------------+---------------------------------------------------------------------------------------+\n", - "| BASE | 2020 |\n", - "+==============================+=======================================================================================+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'QTDE_SALAS_UTILIZADAS_DENTRO', 'QTDE_COMPUTADOR_MESA'] |\n", - "+------------------------------+---------------------------------------------------------------------------------------+\n", - "| NUM_SOM | ['NUM_SOM', 'QTDE_SALAS_UTILIZADAS_CLIMATIZADA', 'NUM_TV'] |\n", - "+------------------------------+---------------------------------------------------------------------------------------+\n", - "| QTDE_SALAS_UTILIZADAS_DENTRO | ['QTDE_SALAS_UTILIZADAS_DENTRO', 'NUM_SALAS_UTILIZADAS', 'QTDE_COMPUTADOR_MESA'] |\n", - "+------------------------------+---------------------------------------------------------------------------------------+\n", - "| NUM_MULTIMIDIA | ['NUM_MULTIMIDIA', 'QTDE_PROF_COORDENADOR', 'QTDE_COMPUTADOR_PORTATIL'] |\n", - "+------------------------------+---------------------------------------------------------------------------------------+\n", - "| QTDE_PROF_PEDAGOGIA | ['NUM_DVD', 'QTDE_PROF_PEDAGOGIA', 'QT_PROF_ADMIN'] |\n", - "+------------------------------+---------------------------------------------------------------------------------------+\n", - "| QTDE_PROF_SECRETARIO | ['QTDE_PROF_SECRETARIO', 'QTDE_COMPUTADOR_PORTATIL', 'QTDE_PROF_COORDENADOR'] |\n", - "+------------------------------+---------------------------------------------------------------------------------------+\n", - "| NUM_TV | ['NUM_TV', 'QTDE_PROF_ALIMENTACAO', 'NUM_SOM'] |\n", - "+------------------------------+---------------------------------------------------------------------------------------+\n", - "| QTDE_PROF_COORDENADOR | ['QTDE_PROF_COORDENADOR', 'QTDE_COMPUTADOR_PORTATIL', 'QTDE_PROF_SECRETARIO'] |\n", - "+------------------------------+---------------------------------------------------------------------------------------+\n", - "| NUM_DVD | ['NUM_DVD', 'QTDE_PROF_PEDAGOGIA', 'QT_PROF_ADMIN'] |\n", - "+------------------------------+---------------------------------------------------------------------------------------+\n", - "| QTDE_PROF_SERVICOS_GERAIS | ['QTDE_PROF_SERVICOS_GERAIS', 'QTDE_COMPUTADOR_MESA', 'QTDE_SALAS_UTILIZADAS_DENTRO'] |\n", - "+------------------------------+---------------------------------------------------------------------------------------+\n", - "| QTDE_PROF_ALIMENTACAO | ['QTDE_PROF_ALIMENTACAO', 'NUM_TV', 'QT_PROF_ADMIN'] |\n", - "+------------------------------+---------------------------------------------------------------------------------------+\n", - "| QT_PROF_ADMIN | ['QT_PROF_ADMIN', 'QTDE_PROF_ALIMENTACAO', 'NUM_TV'] |\n", - "+------------------------------+---------------------------------------------------------------------------------------+\n", + "+------------------------------+----------------------------------------------------------------------------------+\n", + "| BASE | 2020 |\n", + "+==============================+==================================================================================+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'QTDE_SALAS_UTILIZADAS_DENTRO', 'QTDE_COMPUTADOR_MESA'] |\n", + "+------------------------------+----------------------------------------------------------------------------------+\n", + "| NUM_SOM | ['NUM_SOM', 'QTDE_SALAS_UTILIZADAS_CLIMATIZADA', 'NUM_TV'] |\n", + "+------------------------------+----------------------------------------------------------------------------------+\n", + "| QTDE_SALAS_UTILIZADAS_DENTRO | ['QTDE_SALAS_UTILIZADAS_DENTRO', 'NUM_SALAS_UTILIZADAS', 'QTDE_COMPUTADOR_MESA'] |\n", + "+------------------------------+----------------------------------------------------------------------------------+\n", + "| NUM_MULTIMIDIA | ['NUM_MULTIMIDIA', 'QTDE_PROF_COORDENADOR', 'QTDE_COMPUTADOR_PORTATIL'] |\n", + "+------------------------------+----------------------------------------------------------------------------------+\n", + "| QTDE_PROF_PEDAGOGIA | ['NUM_DVD', 'QTDE_PROF_PEDAGOGIA', 'QT_PROF_ADMIN'] |\n", + "+------------------------------+----------------------------------------------------------------------------------+\n", + "| QTDE_PROF_SECRETARIO | ['QTDE_PROF_SECRETARIO', 'QTDE_COMPUTADOR_PORTATIL', 'QTDE_PROF_COORDENADOR'] |\n", + "+------------------------------+----------------------------------------------------------------------------------+\n", + "| NUM_TV | ['NUM_TV', 'QTDE_PROF_ALIMENTACAO', 'NUM_SOM'] |\n", + "+------------------------------+----------------------------------------------------------------------------------+\n", + "| QTDE_PROF_COORDENADOR | ['QTDE_PROF_COORDENADOR', 'QTDE_COMPUTADOR_PORTATIL', 'QTDE_PROF_SECRETARIO'] |\n", + "+------------------------------+----------------------------------------------------------------------------------+\n", + "| NUM_DVD | ['NUM_DVD', 'QTDE_PROF_PEDAGOGIA', 'QT_PROF_ADMIN'] |\n", + "+------------------------------+----------------------------------------------------------------------------------+\n", + "| QTDE_PROF_SERVICOS_GERAIS | ['QTDE_PROF_SERVICOS_GERAIS'] |\n", + "+------------------------------+----------------------------------------------------------------------------------+\n", + "| QTDE_PROF_ALIMENTACAO | ['QTDE_PROF_ALIMENTACAO', 'NUM_TV', 'QT_PROF_ADMIN'] |\n", + "+------------------------------+----------------------------------------------------------------------------------+\n", + "| QT_PROF_ADMIN | ['QT_PROF_ADMIN', 'QTDE_PROF_ALIMENTACAO', 'NUM_TV'] |\n", + "+------------------------------+----------------------------------------------------------------------------------+\n", "NOVAS COLUNAS: ['QTDE_LOUSA_DIGITAL' 'QTDE_PROF_BIBLIOTECARIO' 'QTDE_PROF_FONO'\n", " 'QTDE_PROF_MONITORES' 'QTDE_PROF_NUTRICIONISTA' 'QTDE_PROF_PSICOLOGO'\n", " 'QTDE_PROF_SAUDE' 'QTDE_PROF_SEGURANCA'\n", @@ -1059,46 +1054,44 @@ "COLUNAS SEM DADOS TRUE: []\n", "Acurácia colunas novas: 0.5714285714285714\n", "Acurácia colunas vazias: 1.0\n", - "Acurácia colunas matches: 1.0\n", + "Acurácia colunas matches: 0.631578947368421\n", "\n", - "Acurácia total: 0.8571428571428571\n", + "Acurácia total: 0.7343358395989975\n", "\n", "2020\n", - "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", - "| BASE | 2021 |\n", - "+===================================+============================================================================================+\n", - "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'QTDE_SALAS_UTILIZADAS_DENTRO', 'QTDE_COMPUTADOR_MESA'] |\n", - "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", - "| QTDE_PROF_COORDENADOR | ['QTDE_COMPUTADOR_PORTATIL', 'QTDE_PROF_COORDENADOR', 'QTDE_PROF_SECRETARIO'] |\n", - "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", - "| QTDE_SALAS_UTILIZADAS_DENTRO | ['QTDE_SALAS_UTILIZADAS_DENTRO', 'NUM_SALAS_UTILIZADAS', 'QTDE_COMPUTADOR_MESA'] |\n", - "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", - "| QTDE_PROF_SECRETARIO | ['QTDE_PROF_SECRETARIO', 'QTDE_COMPUTADOR_PORTATIL', 'QTDE_PROF_COORDENADOR'] |\n", - "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", - "| QTDE_PROF_PEDAGOGIA | ['NUM_DVD', 'QTDE_PROF_PEDAGOGIA', 'NUM_MULTIMIDIA'] |\n", - "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", - "| QT_PROF_ADMIN | ['QT_PROF_ADMIN', 'QTDE_PROF_ALIMENTACAO', 'QTDE_SALAS_UTILIZADAS_ACESSIVEIS'] |\n", - "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", - "| NUM_DVD | ['QTDE_PROF_PEDAGOGIA', 'NUM_DVD', 'QTDE_SALAS_UTILIZADAS_ACESSIVEIS'] |\n", - "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", - "| QTDE_COMPUTADOR_MESA | ['QTDE_COMPUTADOR_MESA', 'QTDE_SALAS_UTILIZADAS_DENTRO', 'NUM_SALAS_UTILIZADAS'] |\n", - "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", - "| NUM_TV | ['NUM_TV', 'QTDE_PROF_ALIMENTACAO', 'QT_PROF_ADMIN'] |\n", - "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", - "| QTDE_COMPUTADOR_PORTATIL | ['QTDE_COMPUTADOR_PORTATIL', 'QTDE_PROF_COORDENADOR', 'QTDE_PROF_SECRETARIO'] |\n", - "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", - "| QTDE_PROF_ALIMENTACAO | ['QTDE_PROF_ALIMENTACAO', 'NUM_TV', 'QT_PROF_ADMIN'] |\n", - "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", - "| NUM_SOM | ['NUM_SOM', 'NUM_TV', 'QTDE_PROF_SERVICOS_GERAIS'] |\n", - "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", - "| QTDE_PROF_SERVICOS_GERAIS | ['QTDE_SALAS_UTILIZADAS_CLIMATIZADA', 'QTDE_PROF_SERVICOS_GERAIS', 'QTDE_COMPUTADOR_MESA'] |\n", - "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", - "| QTDE_SALAS_UTILIZADAS_CLIMATIZADA | ['NUM_SOM', 'QTDE_PROF_SERVICOS_GERAIS', 'QTDE_SALAS_UTILIZADAS_CLIMATIZADA'] |\n", - "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", - "| NUM_MULTIMIDIA | ['QTDE_PROF_COORDENADOR', 'QTDE_COMPUTADOR_PORTATIL', 'NUM_MULTIMIDIA'] |\n", - "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", - "| QTDE_SALAS_UTILIZADAS_ACESSIVEIS | ['QTDE_PROF_SECRETARIO', 'QTDE_COMPUTADOR_PORTATIL', 'QTDE_PROF_COORDENADOR'] |\n", - "+-----------------------------------+--------------------------------------------------------------------------------------------+\n", + "+-----------------------------------+----------------------------------------------------------------------------------+\n", + "| BASE | 2021 |\n", + "+===================================+==================================================================================+\n", + "| NUM_SALAS_UTILIZADAS | ['NUM_SALAS_UTILIZADAS', 'QTDE_SALAS_UTILIZADAS_DENTRO', 'QTDE_COMPUTADOR_MESA'] |\n", + "+-----------------------------------+----------------------------------------------------------------------------------+\n", + "| QTDE_PROF_COORDENADOR | ['QTDE_COMPUTADOR_PORTATIL', 'QTDE_PROF_COORDENADOR', 'QTDE_PROF_SECRETARIO'] |\n", + "+-----------------------------------+----------------------------------------------------------------------------------+\n", + "| QTDE_SALAS_UTILIZADAS_DENTRO | ['QTDE_SALAS_UTILIZADAS_DENTRO', 'NUM_SALAS_UTILIZADAS', 'QTDE_COMPUTADOR_MESA'] |\n", + "+-----------------------------------+----------------------------------------------------------------------------------+\n", + "| QTDE_PROF_SECRETARIO | ['QTDE_PROF_SECRETARIO', 'QTDE_COMPUTADOR_PORTATIL', 'QTDE_PROF_COORDENADOR'] |\n", + "+-----------------------------------+----------------------------------------------------------------------------------+\n", + "| QTDE_PROF_PEDAGOGIA | ['NUM_DVD', 'QTDE_PROF_PEDAGOGIA', 'NUM_MULTIMIDIA'] |\n", + "+-----------------------------------+----------------------------------------------------------------------------------+\n", + "| QT_PROF_ADMIN | ['QT_PROF_ADMIN', 'QTDE_PROF_ALIMENTACAO', 'QTDE_SALAS_UTILIZADAS_ACESSIVEIS'] |\n", + "+-----------------------------------+----------------------------------------------------------------------------------+\n", + "| NUM_DVD | ['QTDE_PROF_PEDAGOGIA', 'NUM_DVD', 'QTDE_SALAS_UTILIZADAS_ACESSIVEIS'] |\n", + "+-----------------------------------+----------------------------------------------------------------------------------+\n", + "| QTDE_COMPUTADOR_MESA | ['QTDE_COMPUTADOR_MESA', 'QTDE_SALAS_UTILIZADAS_DENTRO', 'NUM_SALAS_UTILIZADAS'] |\n", + "+-----------------------------------+----------------------------------------------------------------------------------+\n", + "| NUM_TV | ['NUM_TV', 'QTDE_PROF_ALIMENTACAO', 'QT_PROF_ADMIN'] |\n", + "+-----------------------------------+----------------------------------------------------------------------------------+\n", + "| QTDE_COMPUTADOR_PORTATIL | ['QTDE_COMPUTADOR_PORTATIL', 'QTDE_PROF_COORDENADOR', 'QTDE_PROF_SECRETARIO'] |\n", + "+-----------------------------------+----------------------------------------------------------------------------------+\n", + "| QTDE_PROF_ALIMENTACAO | ['QTDE_PROF_ALIMENTACAO', 'NUM_TV', 'QT_PROF_ADMIN'] |\n", + "+-----------------------------------+----------------------------------------------------------------------------------+\n", + "| NUM_SOM | ['NUM_SOM', 'NUM_TV', 'QTDE_PROF_SERVICOS_GERAIS'] |\n", + "+-----------------------------------+----------------------------------------------------------------------------------+\n", + "| QTDE_PROF_SERVICOS_GERAIS | ['QTDE_SALAS_UTILIZADAS_CLIMATIZADA', 'QTDE_PROF_SERVICOS_GERAIS'] |\n", + "+-----------------------------------+----------------------------------------------------------------------------------+\n", + "| QTDE_SALAS_UTILIZADAS_CLIMATIZADA | ['NUM_SOM', 'QTDE_PROF_SERVICOS_GERAIS'] |\n", + "+-----------------------------------+----------------------------------------------------------------------------------+\n", + "| NUM_MULTIMIDIA | ['QTDE_PROF_COORDENADOR', 'QTDE_COMPUTADOR_PORTATIL'] |\n", + "+-----------------------------------+----------------------------------------------------------------------------------+\n", "NOVAS COLUNAS: ['QTDE_LOUSA_DIGITAL' 'QTDE_PROF_BIBLIOTECARIO' 'QTDE_PROF_FONO'\n", " 'QTDE_PROF_MONITORES' 'QTDE_PROF_NUTRICIONISTA' 'QTDE_PROF_PSICOLOGO'\n", " 'QTDE_PROF_SAUDE' 'QTDE_PROF_SEGURANCA' 'QTDE_SALAS_UTILIZADAS_FORA'\n", @@ -1106,21 +1099,22 @@ "NOVAS COLUNAS TRUE: []\n", "COLUNAS SEM DADOS: ['QTDE_LOUSA_DIGITAL' 'QTDE_PROF_BIBLIOTECARIO' 'QTDE_PROF_FONO'\n", " 'QTDE_PROF_MONITORES' 'QTDE_PROF_NUTRICIONISTA' 'QTDE_PROF_PSICOLOGO'\n", - " 'QTDE_PROF_SAUDE' 'QTDE_PROF_SEGURANCA' 'QTDE_SALAS_UTILIZADAS_FORA'\n", + " 'QTDE_PROF_SAUDE' 'QTDE_PROF_SEGURANCA'\n", + " 'QTDE_SALAS_UTILIZADAS_ACESSIVEIS' 'QTDE_SALAS_UTILIZADAS_FORA'\n", " 'QTDE_TABLET']\n", "COLUNAS SEM DADOS TRUE: []\n", "Acurácia colunas novas: 1.0\n", "Acurácia colunas vazias: 1.0\n", - "Acurácia colunas matches: 0.9375\n", + "Acurácia colunas matches: 0.5\n", "\n", - "Acurácia total: 0.9791666666666666\n", + "Acurácia total: 0.8333333333333334\n", "\n" ] } ], "source": [ "anos = df.ano_coluna1.unique()\n", - "threshold = 0.8\n", + "threshold = 0.5\n", "\n", "# Itera sobre todos os anos\n", "for ano in anos:\n", @@ -1128,14 +1122,15 @@ " ano_df = df[df.ano_coluna1 == ano]\n", " \n", " # Estruturas\n", - " base_columns = ano_df.coluna1.unique() # Colunas que ja existiam na base\n", - " new_columns = ano_df.coluna2.unique() # Colunas do próximo ano\n", - " true_new_columns = np.setdiff1d(new_columns, base_columns) # Colunas que nao existiam na base\n", - " true_empty_columns = np.setdiff1d(base_columns, new_columns) # Colunas da base que nao receberam dados\n", - " all_columns = np.union1d(base_columns, new_columns) # Todas as colunas possiveis\n", - " resultados = [] # Resultados dos matches\n", - " prev_col = [] # Colunas da base que tiveram match\n", - " next_col = [] # Colunas do proximo ano que tiveram match\n", + " base_columns = ano_df.coluna1.unique() # Colunas que ja existiam na base\n", + " new_columns = ano_df.coluna2.unique() # Colunas do próximo ano\n", + " intersection_columns = np.intersect1d(base_columns, new_columns) # Colunas que possuem match\n", + " true_new_columns = np.setdiff1d(new_columns, base_columns) # Colunas que nao existiam na base\n", + " true_empty_columns = np.setdiff1d(base_columns, new_columns) # Colunas da base que nao receberam dados\n", + " all_columns = np.union1d(base_columns, new_columns) # Todas as colunas possiveis\n", + " resultados = [] # Resultados dos matches\n", + " prev_col = [] # Colunas da base que tiveram match\n", + " next_col = [] # Colunas do proximo ano que tiveram match\n", " \n", " # Encontra as top3 novas colunas que mais se encaixam com as colunas base\n", " for col in base_columns:\n", @@ -1156,7 +1151,6 @@ " \n", " # Calcula acurácia\n", " acuracia_matches = 0\n", - " qt_matches = 0\n", " acuracia_novas_colunas = 0\n", " acuracia_colunas_vazias = 0\n", "\n", @@ -1169,8 +1163,7 @@ " if i[0] == i[2]:\n", " acertos += 1\n", " break\n", - " qt_matches += 1\n", - " acuracia_matches = acertos / qt_matches\n", + " acuracia_matches = acertos / len(intersection_columns)\n", "\n", " # Acurácia novas colunas\n", " acertos = 0\n", -- GitLab