From a9f1676cdfb5b999cbdf51e7eff4280b95e25b67 Mon Sep 17 00:00:00 2001 From: Fernando Mayer <fernandomayer@gmail.com> Date: Fri, 8 Jan 2016 22:18:35 -0200 Subject: [PATCH] Inicio de texto sobre pesquisa reproduzivel --- capPesqRep.Rmd | 245 +++++++++++++++++++++++++++++++++++++++++++++++-- 1 file changed, 236 insertions(+), 9 deletions(-) diff --git a/capPesqRep.Rmd b/capPesqRep.Rmd index ce712ee..d8f3aeb 100644 --- a/capPesqRep.Rmd +++ b/capPesqRep.Rmd @@ -17,17 +17,244 @@ source("config.R") rty <- "md" ``` +# Introdução + +Atualmente a evolução da tecnologia, mais especificamente em como +coletamos, processamos e analisamos dados, têm possibilitado a +interpretação de bases de dados complexas e de alta dimensão. Algumas +bases de dados podem ser geradas quase que instantaneamente, se +comparado à alguns anos atrás. Além disso, utilizamos o alto poder +computacional atual para combinar bases de dados existentes (que já +possuem grandes dimensões) em bases de dados cada vez maiores. Também +utilizamos a alta capacidade de processamento para implementar rotinas +de análise cada vez mais sofistivadas e complexas. + +Mas quem garante que toda essa informação, e todo esse resultado que vem +sendo gerado pode ser confiável? Não existe uma resposta direta para +essa pergunta, e certamente a confiabilidade de uma informação depende +de muitos fatores. Uma possibilidade é confiarmos na afirmação que +alguém fez, e simplesmente acreditar que isso seja verdade. Você tomaria +um comprimido que alguém está distribuindo na rua afirmando que ele cura +a sua dor de cabeça? E se um médico lhe oferecesse esse mesmo +comprimido, isso faria você tomar o remédio com mais segurança? +Certamente sim, mas quem garante que o médico não possa estar errado e o +remédio causar um efeito colateral devastador em você? A resposta para +essa pergunta é fácil. Considerando que o médico seja responsável, ele +**pesquisou** antes de indicar a medicação para alguém. Mas quem garante +que a pesquisa que o médico se baseou é confiável? É aí que entra a +teoria da ciência e as formas de validação de um +resultado. (*Arrumar essa ideia e continuar...*) + +As análises, os modelos e os algoritmos que usamos hojem em dia são +muito mais complexos do que no passado. Ter um entendimento básico +de tudo isso é difícil, até mesmo para os mais qualificados, e é quase +impossível descerver todos os detalhes em palavras apenas. Por isso, +entender o que alguém fez em uma análise de dados atualmente, requer +olhar para o *código*, e examinar minuciosamente as rotinas utilizadas +pelas pessoas. + # Como a ciência funciona -* Replicação - - Muitas vezes difícil -* Reproducibilidade - - Mais fácil. O mínimo de qualquer pesquisa é ser reproduzível -* Elementos da reproducibilidade: - 1. Dados - 2. Código - 3. Documentação - 4. Distribuição +A ciência é ... + +Para que um resultado de uma pesquisa científica possa ser considerado +como válido, é necessário que este resultado possa ser **replicado** por +diversos cientistas. A replicação é um dos pilares fundamentais da +ciência. Basicamente é necessário que diversos cientistas coletem e +analisem dados de forma independente, e cheguem no mesmo +resultado. Dessa forma se você chegar à conclusão de que X causa Y, ou +que a vitamina C melhora a doença Z, ou que alguma coisa causa algum +problema, será necessário que outros cientistas, independentes de você, +cheguem no mesmo resultado. Se muitas pessoas diferentes chegarem à +mesma conclusão de forma independente, então tendemos a pensar que a +relação ou resultado provavelmente é verdadeiro. + +A replicação na ciência têm sido praticada há muitos anos. No entanto, +hojem em dia esta prática tem se tornado cada vez mais desafiadora, uma +vez que os estudos estão se tornando cada vez maiores e mais caros, e a +disponibilidade de recursos financeiros para pesquisas cada vez mais +escassa. Além disso, existem estudos que dificilmente podem ser +replicados, como por exemplo, a avaliação do impacto de um terremoto em +um determinado local, a evolução do crescimento de uma floresta, ou um +estudo clínico que acompanhou as reações de pacientes à um medicamento +durante 20 anos. + +Existem muitas boas razões pelas quais não podemos replicar um +estudo. Se replicar não é possível, então a opção seria não fazer nada, +e ter como informação apenas o resultado de um estudo. No entanto, não +fazer nada não é (e não pode ser) uma opção para cientistas. É nesse +ponto que entra o conceito de **pesquisa reproduzível**. A ideia é criar +uma espécie de "padrão mínimo", ou um "meio-termo" entre replicar um +estudo e não fazer nada, fazer algo no meio. O problema básico é que +temos o padrão ideal, que é a replicação, e o padrão nulo, que é não +fazer nada. O que pode ser feito entre o melhor (que não é possível) e o +pior (que não é desejável), é a reprodução dos resultados. É uma forma +de preencher a lacuna de informação entre replicação e nada. + +``` +Figura com esquema de replicação e reprodução + +##------------------------------------------------------------------------ +## Replicação + ++------------------+ +| | +------------------+ +| Estudo | | | +| 1 | +--------------------> | Resultado X | +| Dados | | | +| | +------------------+ ++------------------+ ++------------------+ +| | +------------------+ +| Estudo | | | +| 2 | +--------------------> | Resultado X | +| Dados | | | +| | +------------------+ ++------------------+ ++------------------+ +| | +------------------+ +| Estudo | | | +| 3 | +--------------------> | Resultado X | +| Dados | | | +| | +------------------+ ++------------------+ + +##------------------------------------------------------------------------ +## Reprodução + + +---------------+ + | Resultado X | + +-----> | | + | +---------------+ + | ++------------------+ | +| | | +-------------------+ +| Estudo | | | | +| 1 | +--------------------> | Resultado X | +| Dados | | | | +| | | +-------------------+ ++------------------+ | + | + | +--------------+ + +------> | Resultado X | + | | + +--------------+ +``` + +Uma pesquisa reproduzível é aquela que pode ser replicada por outras +pessoas de maneira independente, com o objetivo de que todas cheguem ao +mesmo resultado. Por isso, uma parte fundamental da pesquisa +reproduzível é tornar disponíveis os **dados** do estudo original, e os +**métodos computacionais** (em forma de código) utilizados para se +chegar no resultado. Dessa forma, qualquer pessoa poderá olhar para os +dados, realizar a análise proposta, e chegar exatamente nos mesmos +resultados. + +Nesse ponto, a pergunta é: se reproduzir uma análise leva à um resultado +já conhecido e esperado, então qual seria o propósito de se fazer (ou de +tornar) uma pesquisa reproduzível? Como mencionado anteriormente, a +pesquisa reproduzível não é uma forma de replicação, mas é melhor do que +não se fazer nada. O propósito principal de reproduzir uma pesquisa é o +de **validação da análise de dados**. Como não há coleta de dados e +métodos analíticos independentes, realmente é difícil validar a questão +científica propriamente dita. Mas, se conseguimos reproduzir uma análise +e chegar no mesmo resultado do autor original, então de alguma forma +estamos validando aquela análise de dados. Com isso, no mínimo podemos +ter confiança de que aquela análise foi realizada apropriadamente e que +os métodos corretos foram utilizados. + +Além disso, a possibilidade de reproduzir um estudo com os dados +originais também permite que diferentes cientistas, com diferentes +visões e ideias possam colaborar no sentido de continuar a pesquisa, ou +sugerir outras abordagens de análise, ou abrindo novas possibilidades +para novas perguntas. Dessa forma, a pesquisa reproduzível deve ser +vista como um processo dinâmico, e não estático, onde o fim seria chegar +no resultado esperado. O verdadeiro trunfo da pesquisa reproduzível é +quando novas ideias e perguntas surgem a partir dos resultados +encontrados, e a disponibilização de dados e códigos podem fazer com que +o processo de geração de conhecimento (que é um dos objetivos da +ciência) seja mais rápido e dinâmico. No futuro, podem existir outras +abordagens e formas de pensar no mesmo problema, e nesse sentido, novos +métodos podem ser utilizados para analisar os dados disponibilizados. Se +o resultado encontrado for sempre o mesmo, também tendemos a acreditar +que deve ser verdadeiro. + +E a questão sobre propriedade intelectual, plágio, etc? + +Nos últimos anos têm havido muita discussão sobre pesquisa reproduzível +na literatura científica e na mídia. Muitas revistas científicas tem +atualizado suas políticas de publicação, para encorajar a +reproducibilidade dos artigos publicados. Em 2012, foi discutido em um +programa de TV um incidente com uma pesquisa promissora para um teste de +câncer na universidade de Duke. Chegou-se à conclusão que os resultados +da pesquisa não podiam ser reproduzidos, levando até a paralisação do +estudo. (*Aqui precisa citar fontes e talvez dar mais detalhes. Procurar +casos mais concretos*.) + +# Boas práticas para a computação científica + +Para promover, encorajar, e padronizar a reproducibilidade de +investigações científicas, algumas práticas podem ser adotadas. De +maneira geral, as peças chave de pesquisa reproduzível são: + +- Disponibilização de dados e metadados +- Disponibilização do código computacional que gerou a análise, que deve + ser completamente especificado +- Todos os passos da análise devem ser descritas, incluindo o + pré-processamento de dados quando houver, para que as pessoas possam + estudá-la e reproduzi-la + +De maneira mais específica, podemos listar oito práticas consideradas +essenciais para que a reproducibilidade seja eficiente: + +1. Escreva programas para humanos, não para computadores +2. Deixe o computador fazer o trabalho +3. Faça alterações incrementais +4. Não repita você mesmo (ou outros) +5. Prepare para erros +6. Otimize código apenas depois que ele funcionar +7. Documente a ideia e o propósito, não a mecânica do programa +8. Colabore + +(*Expandir essa parte baseada em Wilson et al, 2014*). + + +# Elementos da reproducibilidade + +1. Dados +2. Código +3. Documentação +4. Distribuição + + +# Análise de dados como arte + +Em 1974, Donald Knuth descreveu a diferença entre arte e ciência da +seguinte forma: + +> Ciência é conhecimento que entendemos tão bem que podemos ensiná-la +> para um computador. Todo o resto é arte. + +Imagine um compositor escrevendo a letra de uma música. Certamente +existem regras gerais de como uma boa música deve ser estruturada: qual a +duração, número de versos, etc. Em outras palavras, existe um estrutura +geral (mesmo que abstrata) para músicas em geral. No entanto, o +conhecimento dessa estrutura e de teoria musical sozinhas não fazem uma +boa música. É necessário algo mais. Em algum momento, o compositor deve +injetar algo mais, alguma coisa que faça com que sua música seja +diferente das outras e que as pessoas queiram ouvir. Esta parte criativa +é difícil de explicar, mas é essencial para o processo de composição. Se +não fosse assim, bastaria programarmos um computador para compor +músicas, o que (para o bem ou para o mal) ainda não aconteceu. + +Assim como a composição de uma música, o processo de analisar dados +também é uma arte. Não é uma coisa que podemos ensinar para um +computador. Análise de dados também possui uma estrutura geral e teorias +envolvidas como regressão linear, árvores de classificação, etc., e +todas estas teorias já foram ensinadas para os computadores. No entanto, +cabe ao analista de dados saber como juntar todas estas ferramentas e +aplicá-las para responder questões relevantes para a ciência e para as +pessoas. (Peng e Matsui, 2015). # Pesquisa reproduzível -- GitLab