From 917f16e2cd845a558f36f5e65206bc1d15f7e328 Mon Sep 17 00:00:00 2001 From: lcd22 <lcd22@inf.ufpr.br> Date: Thu, 6 Mar 2025 12:45:24 +0000 Subject: [PATCH] ajustando clean.py --- clean.py | 21 +++++++++++++++++---- 1 file changed, 17 insertions(+), 4 deletions(-) diff --git a/clean.py b/clean.py index b525233..a2c4a69 100644 --- a/clean.py +++ b/clean.py @@ -16,10 +16,23 @@ spark = SparkSession.builder \ def clean_bucket(bucket_path): try: print(f"Limpando o diretório {bucket_path}...") - spark._jvm.org.apache.hadoop.fs.FileSystem \ - .get(spark._jsc.hadoopConfiguration()) \ - .delete(spark._jvm.org.apache.hadoop.fs.Path(bucket_path), True) - print(f"Diretório {bucket_path} limpo com sucesso.") + + # Certifique-se de que o caminho S3 seja tratado corretamente + if not bucket_path.startswith("s3a://"): + print(f"Caminho inválido: {bucket_path}. Deve começar com 's3a://'.") + return + + # Usando a API Hadoop FileSystem para deletar o diretório S3 + fs = spark._jvm.org.apache.hadoop.fs.FileSystem.get(spark._jsc.hadoopConfiguration()) + path = spark._jvm.org.apache.hadoop.fs.Path(bucket_path) + + # Apagar o diretório S3 (o parâmetro 'True' remove recursivamente) + if fs.exists(path): + fs.delete(path, True) + print(f"Diretório {bucket_path} limpo com sucesso.") + else: + print(f"O diretório {bucket_path} não existe.") + except Exception as e: print(f"Erro ao limpar o diretório {bucket_path}: {e}") -- GitLab