DAG

Biblioteca

Dica de Ciência Aberta #2

29-06-2022

Dica de Ciência Aberta #2

PADRONIZAR O FORMATO DOS FICHEIROS

Uma das primeiras decisões ao criar um Plano de Gestão de Dados tem a ver com a escolha dos formatos de ficheiros de dados a utilizar. Para garantir a longevidade e a interoperabilidade dos dados deve-se preservá-los, preferencialmente, em formatos não proprietários, de modo a reduzir o risco de os ficheiros ficarem ilegíveis no futuro. É importante antecipar futuras alterações tecnológicas que possam afetar o acesso aos dados e tomar medidas para evitar problemas. No quadro abaixo pode encontrar alguns formatos de ficheiros mais recomendados para a preservação a longo prazo de acordo com os respetivos tipos de dados:

Formatos de ficheiros de dados

Cabe lembrar que para além da atenção aos formatos, deve-se sempre utilizar os mesmos formatos para os mesmos tipos de dados e garantir que os ficheiros, bem como as pastas onde estes serão armazenados, sejam identificados e organizados de forma sistemática.

DESCREVER DE FORMA CLARA

A correta descrição dos dados de investigação, ao longo do seu ciclo de vida, garante que estes sejam facilmente identificáveis, assim recorrer a metadados e a vocabulários controlados tem um impacto positivo na investigação e na compreensão por outros investigadores, bem como a correta agregação por infraestruturas de informação científica de referência. Podem-se identificar 3 grandes categorias de metadados:

  • Descritivos: descrevem os dados propriamente (título, autor, data, forma ou condição de recolha…);
  • Administrativos: atribuem informações sobre preservação, direitos de autor, licenças, termos de uso, embargo e dados técnicos;
  • Estruturais: apresentam informações sobre como diferentes componentes de um conjunto de dados associados se relacionam entre si.

Existem esquemas de metadados mais específicos para as diferentes áreas de investigação, que podem ser consultados no diretório gerido pela Research Data Alliance.

Os vocabulários controlados pressupõem uma linguagem composta por termos organizados e estruturados para a descrição dos dados. Existem várias iniciativas que disponibilizam conjuntos de vocabulários controlados, tais como:

  • Data Documentation Initiative (DDI) cujo vocabulário pode ser utilizado para descrever conjuntos de dados nas áreas das ciências sociais, comportamentais, económicas e saúde;
  • CESSDA Vocabulary Service, ferramenta vocacionada para a área das ciências sociais, que permite aos utilizadores procurar, pesquisar e fazer o download de vocabulários controlados disponibilizados em vários idiomas.

Guia de vocabulários controlados disponível aqui.

TRATAR OS DADOS

Antes da disseminação, podem ser necessárias ações de tratamento dos dados, como:

  • Agregação: combinação de dados em unidades maiores;
  • Anonimização: remoção de informações que identificam seres humanos;
  • Digitalização: no caso daqueles registados em papel, pois todos os dados recolhidos numa investigação devem ser partilhados.

Os dados que contêm informação que possibilita a identificação direta ou indireta dos seus titulares (dados sensíveis), precisam de ser anonimizados. A UE tem regulamentação específica para salvaguarda de dados pessoais (Regulamento Geral de Proteção de Dados-RGPD) e de dados sensíveis não pessoais. Consideram-se dados sensíveis:

  • Dados pessoais;
  • Dados confidenciais;
  • Dados de segurança;
  • Dados biológicos;
  • Combinação de diferentes conjuntos de dados que podem resultar na obtenção de dados sensíveis ou pessoais.

PROTEGER, CONTROLAR E INSTRUIR

Ao longo da investigação deve-se garantir que os dados estejam acessíveis aos investigadores e que as intervenções neles realizadas sejam devidamente registadas, por isso é importante distinguir consistentemente as versões dos ficheiros, pois permitirá o rastreio do desenvolvimento dos ficheiros.

Fornecer instruções claras de como os dados foram recolhidos é fundamental para a sua reutilização, assim deve-se considerar a adição de uma nota metodológica (README File.txt), integrada aquando do depósito dos dados no repositório, que inclua a informação necessária para a sua correta interpretação: a identificação do processo de recolha; os instrumentos/softwares utilizados; as datas e condições de recolha e os métodos de tratamento. Veja aqui um exemplo de modelo de README file elaborado pela Cornell University.

IDENTIFICAR E LICENCIAR

Para garantir a autoria e a devida citação recomenda-se a atribuição de um identificador único para cada conjunto de dados (como um Digital Object Identifier - DOI) e o desenvolvimento de uma declaração de acesso a dados, que serve para direcionar os utilizadores para informações sobre as restrições e o que deve ser feito para obter informações sobre o acesso aos dados. Para além disso, no momento do depósito deve-se ter previamente definidas as licenças de reutilização que serão atribuídas.

Conheça as 10 razões para depositar dados de investigação em repositórios aqui!

10 razões para depositar dados de investigação em repositórios

 

 

 

Conheça mais Dicas de Ciência Aberta aqui.