simcaq_statistics
Este repositório contém scripts e análises referentes ao banco do Simcaq.
Objetivo
Encontrar uma forma de encontrar colunas que se completam em um banco de dados, mesmo que as colunas sejam de tipos diferentes e possuam nulos.
Tentativas até então
-
Somar colunas binarias de presença de dados
-
Teste de Kolmogorov-smirnov
Hipotese nula: Para todas as amostras retiradas de colunas diferentes, elas pertencem ao mesmo dado.
Links
- https://www.kaggle.com/code/gadaadhaarigeek/k-s-test
- https://medium.com/@ricardojaviermartnezsustegui/kolmog%C3%B3rov-smirnov-test-in-python-step-by-step-1b7532021bd2
- https://stats.stackexchange.com/questions/354035/how-to-compare-the-data-distribution-of-2-datasets
- https://stats.stackexchange.com/questions/83163/statistical-test-to-tell-whether-two-samples-are-pulled-from-the-same-population
- !!!https://www.quora.com/What-are-some-statistical-tests-that-can-be-used-to-compare-two-sets-of-sample-data-without-assuming-that-they-come-from-the-same-population-hypothesis-testing
Fonte dos microdados do governo
https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/