Estandarización de datos en Darwin Core

Objetivo

Estructurar un conjunto de datos bajo el estándar Darwin Core (DwC), siguiendo sus vocabularios controlados y las buenas prácticas de documentación.

Convenciones

  • Los elementos del estándar Darwin Core aparecen en color verde y cursiva. Por ejemplo: measurementUnit.
  • Los archivos a utilizar en los ejercicios se muestran entre comillas angulares, negrita, y tienen una tipografía diferente. Por ejemplo: «archivo_Ejemplo.xls».
  • Las secciones, ventanas y componentes de las herramientas utilizadas se muestran entre comillas inglesas y en negrita. Por ejemplo: “Create Project”.
  • Las opciones de las herramientas que se asocian a instrucciones (dar clic, seleccionar, etc.) aparecen en color amarillo y cursiva. Por ejemplo: New project.
  • Las secuencias de instrucciones y pasos se muestran en color amarillo, cursiva y negrita. Por ejemplo: Paso 1 > Paso 2.
  • Las líneas que se escriben directamente en las herramientas, para programar o realizar algún proceso en específico, aparecen en formato de código, con una tipografía distinta de color negro. Por ejemplo: value.replace(“ sp.”,””).

Sobre la actividad

Estructurar un conjunto de datos de prueba según el estándar DwC, usando la plantilla de publicación de registros biológicos del SiB Colombia. El conjunto de datos tiene problemas de completitud y formato, los cuales deben ser resueltos para que el conjunto se ajuste a las definiciones y contenga los elementos mínimos requeridos por el estándar.

Requisitos

  • Para realizar este ejercicio, es necesario contar con un programa que procese archivos de texto. Por ejemplo, Excel.

Archivo de trabajo


Paso 1 - Caso de estudio

Lea detenidamente el caso de estudio, allí encontrará información relevante para completar el conjunto de datos a publicar.

(Tenga presente que este caso está basado en una historia ficticia y fue creado solo para propósitos educativos).

La «Universidad de Ciencias Naturales» (UCN) es reconocida en el país como una institución de referencia para la investigación sobre biodiversidad. El Departamento de Biología Animal mantiene el Museo de Historia Natural (Registro Nacional de Colecciones Biológicas: 123), en donde la Colección Zoológica se encuentra bien representada con cerca de 700 especímenes recolectados a lo largo del territorio nacional, desde mediados del siglo 20 hasta la fecha. En la actualidad, su cuidado se encuentra a cargo del profesor de Sistemática Animal, Juan Travolta, quien realiza tareas curatoriales, investigativas y de docencia. Además, otros profesores del departamento y algunos estudiantes colaboran ocasionalmente con la identificación de muestras y la toma de datos. El Coordinador del Departamento de Biología Animal, convencido de los beneficios y bondades que brinda la publicación de información a través del SiB Colombia, desea que se publiquen en línea los datos sobre aves de la colección ornitológica (MH-ORNIT), anfibios y reptiles de la colección de herpetología (MH-HERP) y algunos mamíferos (MH-MAM). Esto permitirá ampliar la visibilidad de las colecciones biológicas de la universidad y dar acceso abierto a dichos datos para que sean consultados o usados en diferentes campos de investigación, llegando incluso a ser utilizados por tomadores de decisiones a nivel regional o nacional.

Su misión, a lo largo de este laboratorio, consiste en estructurar los datos del museo con base los lineamientos del estándar Darwin Core (DwC).

Paso 2 - Identificar los elementos obligatorios

Ingrese a la plantilla de publicación, allí encontrará 4 pestañas:

  • Instrucciones: contiene la guía de uso y los puntos a tener en cuenta antes de iniciar la documentación de los registros biológicos.
  • Plantilla: contiene la tabla de los elementos DwC para documentar los registros biológicos.
  • Definiciones: contiene las definiciones para cada uno de los elementos del estándar DwC, recomendaciones de documentación y ejemplos.
  • Vocabulario: contiene los vocabularios controlados para algunos de los elementos DwC.

En la pestaña de instrucciones, encontrará adicionalmente una sección titulada «Elementos obligatorios según el origen de los datos» (Fig. 1). De acuerdo a la lectura del caso de estudio, identifique cuáles son los elementos obligatorios para el ejercicio.

Figura 1. Instrucciones de la plantilla DwC: Elementos obligatorios según el origen de los datos

Figura 1. Instrucciones de la plantilla DwC: Elementos obligatorios según el origen de los datos.

Paso 3 - Crear los elementos obligatorios

Abra el archivo de trabajo «Datos_Caso1_20reg.xlsx» y cree los elementos obligatorios faltantes a partir de la información del caso de estudio y los mismos datos.

Pista: Debe crear un identificador único del registro biológico (occurrenceID) a partir del código de la institución (institutionCode), código de la colección (collectionCode) y número de catálogo (catalogNumber). Revise la definición del elemento occurrenceID en la plantilla para saber cómo construirlo.

Ejemplo de occurrenceID: UCN:MH-ORNIT:46-2300MI2008AV0954.

Paso 4 - Mapeo de los datos

Una vez que haya creado los elementos obligatorios, revise detenidamente el nombre y contenido de cada columna del archivo «Datos_Caso1_20reg.xlsx» e identifique a cuál elemento DwC de la plantilla de publicación corresponde. Este proceso recibe el nombre de mapeo de datos. Cuando identifique el elemento correspondiente, copie y pegue el contenido de esa columna en la plantilla, como se muestra en la siguiente imagen (Fig. 2):

Figura 2. Mapeo de datos en la plantilla DwC

Figura 2. Mapeo de datos en la plantilla DwC.

Paso 5 - Ajustar los datos

Una vez que haya trasladado todos los datos del archivo «Datos_Caso1_20reg.xlsx» a la plantilla de publicación, ajuste las columnas de acuerdo a las definiciones y vocabularios controlados del estándar Darwin Core para cada elemento mapeado (Fig. 3).

Figura 3. Estructura de la plantilla de publicación

Figura 3. Estructura de la plantilla de publicación.

Paso 6 - Eliminar los elementos vacíos

Elimine en la plantilla de registros biológicos los elementos DwC que quedaron vacíos. Recuerde que para la publicación solo debe mantener los elementos que hayan sido documentados.

Al finalizar, su plantilla debe verse similar a la siguiente imagen (Fig. 4):

Figura 4. Resultado final del mapeo de datos y la eliminación de elementos vacíos

Figura 4. Resultado final del mapeo de datos y la eliminación de elementos vacíos.

Paso 7 - Verificación del resultado

Descargue y compare el siguiente archivo, estandarizado según las definiciones del Darwin Core, con el archivo que trabajó en el laboratorio e identifique aciertos y oportunidades de mejora. ¿Logró completar más información del conjunto de datos en la plantilla?

Paso 8 - Datos propios

Si tiene datos propios que desee publicar, estandarícelos siguiendo los pasos de esta guía. Recuerde usar la plantilla de acuerdo al tipo y origen de los datos.


¡Felicitaciones! Su conjunto de datos ha sido estandarizado según el Darwin Core.


Atribución y uso de los laboratorios

La licencia CC-BY permite usar, redistribuir y construir sobre estos contenidos libremente.

¡La difusión de estos laboratorios contribuirá a la publicación de más y mejores conjuntos de datos sobre biodiversidad!

Citación sugerida

Plata C., Ortíz R., Marentes E., Lozano J. (2021). Laboratorio de datos, Ciclo de formación. Consultado a través del SiB Colombia. Disponible en https://biodiversidad.co/formacion/laboratorios.