- Que tipos de dados você tem, majoritariamente (atributos numéricos, textuais)?
O Dataset tem majoritariamente dados numéricos, com algumas informações de IP e timestamps junto.
- Qual seu objetivo com esse dataset?
Detectar e diferenciar ataques DDoS do tipo UDP-Flood, Syn-Flood e Conexões benignas a servidores.
- Como é a distribuição dos dados do dataset?
O dataset contém dados de ataques DDoS, juntamente com dados de conexões benignas a servidores.
Explicações detalhadas podem ser encontradas [aqui](https://www.unb.ca/cic/datasets/ddos-2019.html)
Explicações detalhadas podem ser encontradas [aqui](https://www.unb.ca/cic/datasets/ddos-2019.html).
Os dados são majoritariamente sobre Syn flood, mas contêm UDP-Lag, UDP-flood e dados de conexões benignas.
- Quais colunas/atributos você julga ser interessante manter e remover? Por quê?
Eu pretendo manter as colunas com informações numéricas, remover as que não são assim como timestamps.
As colunas mais importantes para mim são as colunas 'Source Port', 'Destination Port' e 'Packet Length Variance', que são as que têm valores que deixam mais claro que tipo de informação se tem a cada linha.