Este texto é uma contribuição de Renata Curty,
PhD – Information Science & Technology, School of Information Studies – Syracuse University
Professora Adjunta do Departamento de Ciência da Informação da Universidade Estadual de Londrina
Esta é uma pergunta frequente por parte dos pesquisadores quando falamos sobre a importância do compartilhamento de dados científicos para acesso aberto como forma de melhor aproveitar recursos públicos injetados em pesquisa, estimular transparência e a reprodutibilidade em ciência. Geralmente essa dúvida é carregada de certa angústia, pois os cientistas surgem atendendo exigências de editores e de agências de fomento internacionais e nacionais no que tange ao compartilhamento de dados, dos quais seus financiamentos e publicações têm sido cada vez mais diretamente dependentes.
A inquietação se dá pela novidade. No Brasil, os esforços para o compartilhamento sistemático de dados de pesquisa, de modo mais abrangente e aberto, são relativamente recentes. A FAPESP, agência de fomento estadual de maior orçamento do país começou a exigir planos de gestão de dados (Data Management Plans – DMP) em 2017, mas suas orientações não são explícitas quanto às opções de repositórios para armazenamento dos dados; muito semelhante à experiência dos EUA. Em 2011, quando a National Science Foundation (NSF), uma das principais agências federais de fomento à pesquisa estadunidense, implementou o mandado para compartilhamento de dados (data sharing mandates), a situação não era diferente.
Lembro de quando eu e meus coautores participamos em 2013 de uma plenária no Research and Data Access and Preservation (RDAP) Summit em que apresentamos as estratégias para compartilhamento e reuso de dados adotadas pelos pesquisadores contemplados com recursos federais, desde a introdução dessa obrigatoriedade pela NSF[1]. Naquela época, observamos, tanto pelos dados obtidos pela pesquisa, quanto pelas questões e relatos dos pesquisadores presentes no evento, a dificuldade de decisão dos pesquisadores acerca do destino dos dados. A NSF não instruía os pesquisadores onde os dados deveriam ser compartilhados e os deixava livre para tal decisão, mas exigia que essa informação constasse no DMP. Muitos eram céticos quanto à capacidade da NSF efetivamente verificar o destino dos dados, e determinar se o compartilhamento havia sido feito de modo satisfatório. Mesmo assim, não deixariam de proceder com o compartilhamento, mesmo que inseguros sobre suas decisões, temendo as consequências de corte de recursos. Até mesmo para aqueles que por altruísmo já tinham o hábito de compartilhardados de pesquisa, essa prática era pouco planejada e realizada ad hoc.
A falta de direcionamento e suporte nessa fase inicial teve consequências tão ruins quanto óbvias. O compartilhamento de dados via repositórios mais genéricos e não necessariamente comprometidos com o reuso de dados foi a estratégia mais adotada. Afinal, bastava “colocá-los em algum lugar e informar sobre seu paradeiro”.
De modo a atender às exigências impostas, muitos pesquisadores depositaram seus dados em repositórios abertos sem critérios para a escolha de tais plataformas. O Figshare foi opção de muitos. Com os motes “Crédito para toda a sua pesquisa” e “Abrindo os dados científicos para o mundo”, a plataforma agrega recursos de compartilhamento e visibilidade, métricas e contagens de impacto e aceita uma gama de tipos de dados e arquivos. Na mesma proporção em que o Figshare atende às necessidades dos pesquisadores que compartilham, dada a usabilidade e simplicidade na ponta inicial do processo, ela peca em condições de reusabilidade futura dos dados; objetivo-alvo do compartilhamento. Enquanto a plataforma ajuda na difusão rápida dos dados, os metadados exigidos e a validação de campos para o upload de arquivos são mínimos. Uma breve navegação pela plataforma revela que, em muitos casos, a documentação da coleção de dados é praticamente inexistente, comprometendo diretamente sua interpretação e potencial reuso.
Com o passar dos anos as bibliotecas universitárias e de centros de pesquisa, os comitês de área, bem como as associações científicas estadunidenses começaram a qualificar repositórios confiáveis e mais apropriados para o compartilhamento. Nesse processo, alguns repositórios foram aprimorados, outros criados, dentre os quais muitos com foco disciplinar, visando atender às necessidades específicas das disciplinas e campos científicos. Tais repositórios de dados começaram a investir em padrões, agregação de conteúdo, pré-verificação e avaliação dos datasets pelos pares, ferramentas de citação de dados, certificação e até mesmo em plug-ins para publicação automática de dados, como a exemplo do Global Biodiversity Information Facility (GBIF).
Voltando à questão central, quando sou indagada por pesquisadores sobre para onde os dados devem ir, não os deixo sem resposta, mesmo que ainda possa parecer-lhes inicialmente retórica e não o aconselhamento pontual esperado. Para a decepção de muitos a resposta nunca é tão simples e direta, pois seria irresponsável sugerir nomes de repositórios sem levar em conta uma série de variáveis como: a disciplina e a especialidade em que o pesquisador atua, os tipos de dados que suas pesquisas produzem, bem como questões legais que incluem direitos de acesso, reuso, e custódia dos dados. No entanto, em um ponto tenho sido enfática: optem por repositórios disciplinares.
Sugiro sempre que os pesquisadores busquem em sua comunidade as opções de repositórios existentes, tanto junto aos seus pares, quanto utilizando os recursos do registro de repositórios Re3data.org. Juntamente com a lista de repositórios de dados por disciplina os pesquisadores, neste registro, é possível identificar selos/ícones que podem auxiliar decisões mais informadas sobre as opções de repositórios, uma vez que representam sua conformidade com alguns requisitos importantes, tais como: 1) existência de informações adicionais sobre recursos e serviços providos pelo repositório; 2) especificação do tipo acesso aos dados (aberto, restrito ou fechado); 3) detalhamento sobre os termos de licença e de uso dos dados; 4) uso de identificadores de modo a garantir que os dados sejam persistentes, unicamente identificados e citáveis, e 5) certificação ou uso de padrões pelo repositório.
Minha defesa pelos repositórios disciplinares coaduna com os argumentos expostos por Lyle (2017)[2]:
Embora os repositórios institucionais e gerais atendam a uma ampla gama de usuários e dados, com mecanismos de metadados, acesso e suporte ao usuário direcionados a um público amplo e heterogêneo, um repositório disciplinar pode fornecer dados, serviços e ferramentas especializados utilizados e favorecidos por uma comunidade científica específica. Isso inclui especialização no assunto, metadados personalizados, conhecimento de divulgação, curadoria e preservação personalizadas, ferramentas especializadas e uma coleção concentrada de dados.
Além das vantagens apresentadas, outro ponto central é o fato de que os pesquisadores buscam impacto e visibilidade entre os seus pares, pessoas que dialogam sobre questões semelhantes, independente da filiação institucional a que pertencem, do mesmo modo em que os reutilizadores potenciais teriam mais recursos para julgar a qualidade de coleções de dados nessas plataformas mais específicas.
Ademais, ilhas de dados institucionais interessariam mais às questões administrativas da custódia e gerenciamento dos dados do que aos cientistas propriamente. Porém, uma via não inviabiliza outra, uma vez que, caso desejável, as coleções de dados disponíveis em repositórios disciplinares poderiam ser devidamente rastreadas e recuperadas por agências de fomento e instituições para fins de relatórios administrativos, quando devidamente identificados por identificadores persistentes como o DOI, o ORCID e o FunderID, GrantIDs, entre outros. Assim, as instituições de pesquisa teriam como acompanhar as produções de seus afiliados e dos pesquisadores que recebem recursos, sem que esse gerenciamento fosse em detrimento da melhor garantia de circulação, alcance e do potencial de reusabilidade desses dados. Essa também seria uma alternativa para garantir a interdisciplinaridade, sem que as coleções de dados perdessem suas especificidades.
Ao passo que o Brasil começa a alinhar-se ao movimento de dados científicos abertos, é importante que aprendamos com a experiência alheia e que pensemos mais estrategicamente. Ainda não contamos com uma infraestrutura nacional que comporte os dados que estão sendo exigidos dos cientistas, muito menos considerando a tendência de expansão dessas exigências. Atualmente existem apenas oito repositórios com participação e ou sob coordenação de instituições nacionais, alguns dos quais não dedicados exclusivamente aos dados de pesquisa e ainda em caráter experimental. O ideal seria que já tivéssemos, mas este não sendo o cenário real, tampouco próximo, um paliativo que nos ajudaria a não repetir o tortuoso exemplo dos EUA, seria que essas regulamentações fossem acompanhadas de instruções e treinamentos para que os pesquisadores façam escolhas mais informadas sobre repositórios minimamente confiáveis e qualificáveis, em suas disciplinas, para o registro dos dados provenientes de suas pesquisas.
Assim como temos um sistema de qualificação nacional para periódicos, eventos e livros científicos, seria imprescindível pensarmos na seara dos colégios e áreas da CAPES e do CNPq quais repositórios, já existentes, nacionais e internacionais, atenderiam aos critérios mínimos de qualidade das disciplinas. Essa qualificação também proveria elementos para um sistema de recompensa científica àqueles que compartilham dados, estimulando essa prática entre os pesquisadores. Os dados depositados em repositórios poderiam ser relacionados às produções científicas formais da pesquisa (artigos de periódicos, artigos de eventos, livros, apresentações, entre outros), ou até mesmo vinculado aos dados de registros de projetos registrados nos currículos dos pesquisadores, algo que vem sendo estimulado em alguns países, e que poderia ser facilmente adotado no Brasil dada à estrutura pré-existente da Plataforma Lattes. Assim, o provimento de dados atenderia não só às exigências impostas aos pesquisadores, mas compensaria aqueles que o fazem corretamente e ampliaria o potencial de reuso dos dados gerados em pesquisas financiadas com recursos públicos.
[1] Os slides da apresentação podem ser obtidos por meio do link: https://www.slideshare.net/asist_org/rdap13-curty-what-have-scientists-planned-for-data-sharing-and-reuse-a-content-analysis-of-nsf-awardees-data-management-plans
[2] Lyle, J. (2017). Makingthe Case for Disciplinary Data Repositories. In Lisa Johnston (Editor), CuratingResearch Data, Volume Two: A HandbookofCurrentPractice (162-164). Chicago: AssociationofCollege and ResearchLibraries.