Laboratorio datos en contexto

Metas de aprendizaje

Las metas de aprendizaje de este laboratorio son:

  1. Entender qué son los metadatos de un recurso.
  2. Crear un recurso en la herramienta de publicación IPT.
  3. Utilizar el IPT para la documentación de metadatos.

Guías

  1. Metadatos
  2. Carga de datos
  3. Mapeo de los datos

Glosario

  • Metadatos: información de contexto para un conjunto de datos, organización publicadora o colección biológica.

  • IPT: es un software gratuito y de código abierto que se utiliza para publicar y compartir conjuntos de datos de biodiversidad a través del SiB Colombia, GBIF y OBIS. Además, permite integrar datos y metadatos en un mismo archivo conocido como DwC-A (Darwin Core Archive). Para una definición más detallada, puede consultar el artículo de GBIF sobre esta herramienta de publicación:https://www.gbif.org/es/ipt.

  • EML: es un estándar para metadatos que consolida información sobre conjuntos de datos ecológicos en una serie de documentos XML modulares y extensibles. Todas las descripciones de los conjuntos de datos disponibles a través del SiB Colombia se basan en “metadatos” —es decir, la información sobre los datos— y utilizan el estándar EML de código abierto, eñ cual administra y mantiene The Knowledge Network for Biocomplexity. Cada Darwin Core Archive incluye un archivo EML (escrito en formato XML) en sus componentes, el cual contiene un perfil específico para estos conjuntos de datos. Este perfil es conocido como Perfil de Metadatos de GBIF o GMP (GBIF Metadata Profile).

  • DwC-A: acrónimo del formato de archivo de intercambio de datos más utilizado en datos sobre biodiversidad. El formato corresponde a un archivo comprimido que contiene:
    • Archivo de datos de ocurrencia: un archivo de datos separado por tabulaciones que contiene, según el tipo de publicación, los registros (occurrence.txt), especies (taxon.txt) o eventos (event.txt) asociados a la publicación.
    • Archivo de metadatos, “eml.xml”: este archivo xml almacena una descripción de toda la información que contiene del conjunto de datos descargado.
    • Archivo de metadatos de descriptor, “meta.xml”: este archivo xml describe la estructura del archivo Darwin Core para que el software pueda procesar todo el archivo automáticamente.
    • Archivos de extensiones: si la publicación cuenta con extensiones Darwin Core, estas también se incluyen dentro del archivo DwC-A. El nombre del archivo varía según la extensión. Algunos ejemplos son multimedia.txt, measurementorfact.txt, description.txt, resourcerelationship.txt, distribution.txt.

  • Datos abiertos: información que cualquiera puede usar, la cual representa una filosofía y una práctica. Para que un dato sea verdaderamente abierto, debe cumplir ciertas características:
    • Permitir su uso para cualquier fin, sin restricciones legales ni técnicas.
    • Contar con acceso gratuito.
    • Tener un formato accesible y legible por computadores.
    • Estar publicados bajo una licencia que permita explícitamente su reutilización

  • Atribución: dar crédito de manera adecuada. Esto se hace reconociendo la autoría de los publicadores (a través de sus nombres) y sus partes atribuidas, brindando un enlace a la licencia e indicando si se han realizado cambios. Ver CCBY 4.0.

  • Licencias Creative Commons: Creative Commons (CC) es una organización sin ánimo de lucro creada en Estados Unidos, la cual cuenta con una red de afiliados voluntarios en todo el mundo. Desarrolló una serie de licencias que facilitan compartir legalmente el conocimiento y la creatividad. A continuación, se listan las licencias disponibles a través del IPT.
    • Herramienta Creative Commons Cero**: permite al público copiar, modificar, distribuir la obra y hacer comunicación pública de ella, incluso para fines comerciales, sin necesidad de pedir autorización. Al usar esta licencia, la obra publicada se dedica al dominio público y los publicadores renuncian a todos los derechos patrimoniales de autor en todo el mundo, incluyendo todos los derechos conexos y afines, en la medida permitida por la ley.
    • Creative Commons Atribución 4.0 internacional: permite al público distribuir, mezclar, ajustar y construir a partir de la obra, incluso con fines comerciales, siempre que su autoría sea reconocida. Esta es la licencia más abierta de las ofrecidas y se recomienda para una máxima difusión.
    • Creative Commons Atribución No Comercial 4.0 internacional: permite al público distribuir, remezclar, retocar y crear a partir de la obra de manera no comercial. Las obras derivadas deberán mencionar la autoría de la original y mantenerse sin fines comerciales, pero sus publicadores no están obligados a licenciarlas bajo las mismas condiciones.

  • DOI: es la sigla para Digital Object Identifier (Objeto de identificación digital). Consiste en un enlace permanente y abreviado que permite identificar un contenido electrónico. En este caso, un recurso publicado a través del SiB Colombia. Todos los recursos publicados a través del SiB Colombia tienen asignados un DOI, los cuales son proporcionados por la agencia de registro Datacite. Entre los beneficios del uso del DOI está la persistencia del recurso en el tiempo, sin importar si hay cambios en el nombre, la citación o los datos. Adicionalmente, el DOI permite rastrear el uso que se le da a los conjuntos de datos en artículos, revistas, libros, entre otros, a través de la web.

  • Recurso: agrupación de un conjunto de datos y sus metadatos. Refleja la unidad de datos y la información que se puede publicar y consultar.

Lecturas y recursos externos

Recursos

Lecturas