diff --git a/README.md b/README.md index 449e2a48f4032b7a42a45560d55288d550f5def7..8995123cc3bba7c822e089865ca96e24159b856c 100644 --- a/README.md +++ b/README.md @@ -1,15 +1,16 @@ -# Trabalho Final de Aprendizado de Máquina (INFO-7004) - Análise de Sentimentos em Reviews +# Trabalho Final de Aprendizado de Máquina (INFO-7004) - Classificação de texto ### Integrantes - Marcela Ribeiro de Oliveira - Thiago Jorge Abdo ### Descrição: -O problema de análise de sentimentos em reviews é um problema de classificação. Assim sendo, no escopo desse trabalho as reviews serão classificadas em positivas ou negativas. +Classificação de texto é um problema clássico no campo de processamento de linguagem natural (NLP) e consiste em atribuir um ou mais labels (rótulos) para um documento de texto. ### Datasets * [Polarity] - contém 2000 reviews rotuladas sendo 1000 positivas e 1000 negativas. +* [Movie-Reviews] - contém 10662 reviews rotuladas sendo 5331 positivas e 5331 negativas. * [IMDB] - contém 50000 reviews rotuladas sendo 25000 positivas e 25000 negativas. ### Extratores de características: @@ -21,7 +22,10 @@ O problema de análise de sentimentos em reviews é um problema de classificaç - K-NN - SVM - MLP + - Naive Bayes + - Random Forest [IMDB]: <https://www.kaggle.com/iarunava/imdb-movie-reviews-dataset> - [Polarity]: <http://www.cs.cornell.edu/people/pabo/movie-review-data/> \ No newline at end of file + [Polarity]: <http://www.cs.cornell.edu/people/pabo/movie-review-data/> + [Movie-Reviews]: <https://github.com/mnqu/PTE/tree/master/data/mr> \ No newline at end of file