Validación Taxonómica - Species Matching

Objetivo

Realizar la validación taxonómica de los nombres científicos para detectar posibles errores de formato y precisión.

Introducción

Convenciones

  • Los elementos del estándar Darwin Core aparecen en color verde y cursiva. Por ejemplo: measurementUnit.
  • Los archivos a utilizar en los ejercicios se muestran entre comillas angulares, negrita, y tienen una tipografía diferente. Por ejemplo: «archivo_Ejemplo.xls».
  • Las secciones, ventanas y componentes de las herramientas utilizadas se muestran entre comillas inglesas y en negrita. Por ejemplo: “Create Project”.
  • Las opciones de las herramientas que se asocian a instrucciones (dar clic, seleccionar, etc.) aparecen en color amarillo y cursiva. Por ejemplo: New project.
  • Las secuencias de instrucciones y pasos se muestran en color amarillo, cursiva y negrita. Por ejemplo: Paso 1 > Paso 2.
  • Las líneas que se escriben directamente en las herramientas, para programar o realizar algún proceso en específico, aparecen en formato de código, con una tipografía distinta de color negro. Por ejemplo: value.replace(“ sp.”,””).

Sobre la herramienta

La herramienta Species Matching es un servicio de GBIF que permite validar de manera automática y masiva hasta 5000 nombres científicos en un conjunto de datos. Species Matching compara los nombres científicos del conjunto con el árbol taxonómico de GBIF, a partir del cual obtiene la clasificación de cada taxón (Reino, Filo, Clase, Orden, Familia, Género) y su estatus taxonómico (Sinónimo, Aceptado, Dudoso).

GBIF Backbone Taxonomy, el árbol taxonómico de GBIF, está basado en 56 fuentes taxonómicas mundiales, permitiendo la integración de nombres científicos independientemente de la fuente de los datos (registros biológicos, taxa, eventos o listas de especies).

Fuente: doi.org/10.15468/39omei

Convenciones

  • Los elementos del estándar Darwin Core aparecen en color verde y cursiva. Por ejemplo: measurementUnit.
  • Los archivos a utilizar en los ejercicios se muestran entre comillas angulares, negrita, y tienen una tipografía diferente. Por ejemplo: «archivo_Ejemplo.xls».
  • Las secciones, ventanas y componentes de las herramientas utilizadas se muestran entre comillas inglesas y en negrita. Por ejemplo: “Create Project”.
  • Las opciones de las herramientas que se asocian a instrucciones (dar clic, seleccionar, etc.) aparecen en color amarillo y cursiva. Por ejemplo: New project.
  • Las secuencias de instrucciones y pasos se muestran en color amarillo, cursiva y negrita. Por ejemplo: Paso 1 > Paso 2.
  • Las líneas que se escriben directamente en las herramientas, para programar o realizar algún proceso en específico, aparecen en formato de código, con una tipografía distinta de color negro. Por ejemplo: value.replace(“ sp.”,””).

Enlace

Species Matching - GBIF: https://www.gbif.org/es/tools/species-lookup

Requerimientos

  • El conjunto de datos debe tener una columna llamada scientificName (nombre científico) y debe estar documentada para todos los casos.

  • La herramienta solo admite archivos en formato CSV.

Archivo de trabajo

Descargue el archivo comprimido «Datos_speciesmatching.zip». Al descomprimirlo, encontrará el conjunto de datos «Datos_speciesmatching.csv» para realizar el laboratorio.


Paso 1 - Carga de archivos en Species-Matching

Ingrese a la herramienta en línea Species Matching y cargue el archivo «Datos_speciesmatching.csv» (Fig. 1). Para ello, tiene dos opciones:

  • Haga clic en SELECT FILE y seleccione el archivo desde la ubicación en su ordenador.
  • Arrastre el archivo desde su explorador de archivos y suéltelo en el ícono DROP HERE.

¡Precaución!

Para que un archivo sea leído por la herramienta, debe estar en formato .csv y tener como mínimo una columna con nombres científicos llamada scientificName.

Figura 1. Página principal de la herramienta Species Matching.

Paso 2 - Manejo de la herramienta

2.1. Selección de reino

Luego de cargar el archivo, la herramienta le permite al usuario seleccionar un reino (kingdom) con el cual comparar los nombres científicos. Esto solo es recomendable cuando todos los registros pertenecen al mismo reino. Por consiguiente, para este ejercicio, seleccione el reino animalia y haga clic en MATCH TO GBIF BACKNONE.

Figura 2. Detalle de la selección de Reino.

Recomendación: incluir el elemento kingdom cuando los datos pertenecen a reinos diferentes, y siempre que sea posible, en el archivo de validación. De esta forma, se evitan problemas ocasionados por homónimos de distintos reinos.

2.2. Resultados de la validación en línea

Una vez validado el archivo, verá una tabla con las siguientes columnas o elementos (Fig. 3):

  • verbatimScientificName: el nombre original del nombre científico.
  • “preferedKingdom”: reino seleccionado para la validación.
  • “matchType”: nivel de coincidencia entre el nombre científico original y el árbol taxonómico de GBIF.
  • “confidence”: grado de confianza del cruce de información.
  • scientificName: nombre científico sugerido de acuerdo al árbol taxonómico de GBIF.
  • “status”: estado taxonómico del nombre científico.
  • “rank”: rango taxonómico del nombre taxonómico.
  • Taxonomía superior: clasificación taxonómica sugerida para: kingdom, phylum, class, order, family y genus.

Figura 3. Detalles del resultado de la validación en Species Matching.

2.3. Corrección y edición de nombres científicos

Diríjase a la columna “matchType” y haga clic en el encabezado para reorganizar los registros de menor a mayor coincidencia (Fig. 4).

Figura 4. Resultados organizados en orden de coincidencia en la columna matchType.

Revise y ajuste los nombres científicos identificados con la etiqueta HIGHERRANK. Diríjase a la columna scientificName y seleccione el ícono del lápiz (Fig. 5A). Posteriormente, aparecerá una ventana que le permitirá seleccionar el nombre científico válido para el registro (Fig. 5B).

Nota: Para el registro de Dendrophidium percarinatus, seleccione la segunda opción: Dendrophidion percarinatum (Cope, 1893). Note que el nombre original tenía un error de tipeo.

Figura 5. Edición del nombre científico. A. Ícono de lápiz, B. Selección nombre científico

La herramienta lápiz le permite editar el nombre interpretado por GBIF para cualquier registro.

¡Advertencia!

No es necesario que ajuste todos los nombres con la etiqueta FUZZY, esto lo puede hacer de forma masiva en los siguientes pasos.

2.4. Descarga del archivo validado

En la parte inferior derecha, encontrará la opción GENERATE CSV(Fig. 6), haga clic sobre ese botón y seleccione una ubicación en su ordenador para guardar el archivo. El conjunto de datos descargado tendrá como nombre «normalized.csv».

Figura 6. Descarga del archivo validado con Species Matching.

Paso 3 - Carga de archivo validado en OpenRefine

OpenRefine le otorga la ventaja de poder realizar filtros y facets para explorar con más detalle los resultados obtenidos a partir la herramienta Species Matching.

Cargue en OpenRefine el archivo «normalized.csv» que obtuvo en el paso anterior. Para ello, abra OpenRefine y siga la ruta Create Project > Get data from > This computer > Choose Files en el menú lateral. Luego, seleccione el archivo que descargó en el paso anterior y dé clic en la opción Next » (Fig. 7).

Figura 7. Carga del archivo en Open Refine.

Modifique el nombre del proyecto en el cuadro de texto Project name, dejando solamente normalized. En el campo Character encoding, asegurese de seleccionar UTF-8. Finalmente, elija la opción Create Project »(Fig. 8).

Figura 8. Modificación de nombre y creación de proyecto.

Paso 4 - Exploración de resultados en OpenRefine

Explore el archivo que subió a OpenRefine e identifique los elementos “matchType”, “confidence”, “status” y “rank”, los cuales le permitirán validar y decidir qué acciones tomar en caso de que necesite corregir el nombre científico de los registros biológicos (Fig. 9A)

Adicionalmente, las columnas que contienen la jerarquía taxonómica (Fig. 9B) son útiles validar y completar la taxonomía superior de su conjunto de datos.

Figura 9. Contenido de las columnas en OpenRefine.

4.1. Creación de filtros en OpenRefine

Realice un Text facet en la columna “matchType”. Para hacerlo, haga clic en el menú de “matchType” y siga la ruta Facet > Text facet (Fig. 10A). Repita este procedimiento y cree otro Text facet para la columna “status”.

En el panel lateral izquierdo, aparecerán los dos filtros creados (Fig. 10B). Explore cuántos registros tienen un nombre científico que coincide de manera exacta (EXACT) con el árbol taxonómico de GBIF, cuántos coinciden parcialmente (FUZZY) y cuántos coinciden solo a un nivel taxonómico superior al documentado en el nombre científico (HIGHERRANK). Revise también cuántos registros tienen un nombre científico con estatus taxonómico aceptado (ACCEPTED) y cuántos son sinónimos (SYNONYM). Al hacer estos filtros, podrá identificar aquellos registros cuyo nombre científico tiene errores de tipeo para corregir estos casos posteriormente.

Figura 10. Creación de filtros y visualización de resultados en OpenRefine.

4.2. Comparación

Compare los elementos verbatimScientificName (el nombre original en su conjunto de datos) y scientificName (el nombre válido según GBIF) en los registros que tengan el valor FUZZY para el “matchtype”. Después de este proceso, observará que algunos registros tienen errores de tipeo. Por lo tanto, puede utilizar sus nuevos conocimientos en OpenRefine para hacer los ajustes que considere pertinentes.

Paso 5 - Datos propios

Si cuenta con un conjunto de datos propio, intente validar los nombres científicos siguiendo los pasos de este laboratorio.


¡Felicitaciones! Terminó la revisión de los nombres científicos con la herramienta Species Matching.


Citación sugerida

Plata C., Ortíz R., Marentes E., Lozano J. (2021). Laboratorio de datos, Ciclo de formación. Consultado a través del SiB Colombia. Disponible en https://biodiversidad.co/formacion/laboratorios.