¡Precaución!
Para que un archivo sea leído por la herramienta, debe estar en formato .csv y tener como mínimo una columna con nombres científicos llamada scientificName.
Objetivo
Realizar la validación taxonómica de los nombres científicos para detectar posibles errores de formato y precisión.
Introducción
Convenciones
Sobre la herramienta
La herramienta Species Matching es un servicio de GBIF que permite validar de manera automática y masiva hasta 5000 nombres científicos en un conjunto de datos. Species Matching compara los nombres científicos del conjunto con el árbol taxonómico de GBIF, a partir del cual obtiene la clasificación de cada taxón (Reino, Filo, Clase, Orden, Familia, Género) y su estatus taxonómico (Sinónimo, Aceptado, Dudoso).
Fuente: doi.org/10.15468/39omei
Convenciones
Enlace
Species Matching - GBIF: https://www.gbif.org/es/tools/species-lookup
Requerimientos
El conjunto de datos debe tener una columna llamada scientificName (nombre científico) y debe estar documentada para todos los casos.
La herramienta solo admite archivos en formato CSV.
Archivo de trabajo
Descargue el archivo comprimido «Datos_speciesmatching.zip». Al descomprimirlo, encontrará el conjunto de datos «Datos_speciesmatching.csv» para realizar el laboratorio.
Ingrese a la herramienta en línea Species Matching y cargue el archivo «Datos_speciesmatching.csv» (Fig. 1). Para ello, tiene dos opciones:
Figura 1. Página principal de la herramienta Species Matching.
Luego de cargar el archivo, la herramienta le permite al usuario seleccionar un reino (kingdom) con el cual comparar los nombres científicos. Esto solo es recomendable cuando todos los registros pertenecen al mismo reino. Por consiguiente, para este ejercicio, seleccione el reino animalia y haga clic en MATCH TO GBIF BACKNONE.
Figura 2. Detalle de la selección de Reino.
Una vez validado el archivo, verá una tabla con las siguientes columnas o elementos (Fig. 3):
Figura 3. Detalles del resultado de la validación en Species Matching.
Diríjase a la columna “matchType” y haga clic en el encabezado para reorganizar los registros de menor a mayor coincidencia (Fig. 4).
Figura 4. Resultados organizados en orden de coincidencia en la columna matchType.
Revise y ajuste los nombres científicos identificados con la etiqueta HIGHERRANK. Diríjase a la columna scientificName y seleccione el ícono del lápiz (Fig. 5A). Posteriormente, aparecerá una ventana que le permitirá seleccionar el nombre científico válido para el registro (Fig. 5B).
Figura 5. Edición del nombre científico. A. Ícono de lápiz, B. Selección nombre científico
La herramienta lápiz le permite editar el nombre interpretado por GBIF para cualquier registro.
En la parte inferior derecha, encontrará la opción GENERATE CSV(Fig. 6), haga clic sobre ese botón y seleccione una ubicación en su ordenador para guardar el archivo. El conjunto de datos descargado tendrá como nombre «normalized.csv».
Figura 6. Descarga del archivo validado con Species Matching.
OpenRefine le otorga la ventaja de poder realizar filtros y facets para explorar con más detalle los resultados obtenidos a partir la herramienta Species Matching.
Cargue en OpenRefine el archivo «normalized.csv» que obtuvo en el paso anterior. Para ello, abra OpenRefine y siga la ruta Create Project > Get data from > This computer > Choose Files en el menú lateral. Luego, seleccione el archivo que descargó en el paso anterior y dé clic en la opción Next » (Fig. 7).
Figura 7. Carga del archivo en Open Refine.
Modifique el nombre del proyecto en el cuadro de texto Project name, dejando solamente normalized. En el campo Character encoding, asegurese de seleccionar UTF-8. Finalmente, elija la opción Create Project »(Fig. 8).
Figura 8. Modificación de nombre y creación de proyecto.
Explore el archivo que subió a OpenRefine e identifique los elementos “matchType”, “confidence”, “status” y “rank”, los cuales le permitirán validar y decidir qué acciones tomar en caso de que necesite corregir el nombre científico de los registros biológicos (Fig. 9A)
Adicionalmente, las columnas que contienen la jerarquía taxonómica (Fig. 9B) son útiles validar y completar la taxonomía superior de su conjunto de datos.
Figura 9. Contenido de las columnas en OpenRefine.
Realice un Text facet en la columna “matchType”. Para hacerlo, haga clic en el menú de “matchType” y siga la ruta Facet > Text facet (Fig. 10A). Repita este procedimiento y cree otro Text facet para la columna “status”.
En el panel lateral izquierdo, aparecerán los dos filtros creados (Fig. 10B). Explore cuántos registros tienen un nombre científico que coincide de manera exacta (EXACT) con el árbol taxonómico de GBIF, cuántos coinciden parcialmente (FUZZY) y cuántos coinciden solo a un nivel taxonómico superior al documentado en el nombre científico (HIGHERRANK). Revise también cuántos registros tienen un nombre científico con estatus taxonómico aceptado (ACCEPTED) y cuántos son sinónimos (SYNONYM). Al hacer estos filtros, podrá identificar aquellos registros cuyo nombre científico tiene errores de tipeo para corregir estos casos posteriormente.
Figura 10. Creación de filtros y visualización de resultados en OpenRefine.
Compare los elementos verbatimScientificName (el nombre original en su conjunto de datos) y scientificName (el nombre válido según GBIF) en los registros que tengan el valor FUZZY para el “matchtype”. Después de este proceso, observará que algunos registros tienen errores de tipeo. Por lo tanto, puede utilizar sus nuevos conocimientos en OpenRefine para hacer los ajustes que considere pertinentes.
Si cuenta con un conjunto de datos propio, intente validar los nombres científicos siguiendo los pasos de este laboratorio.
¡Felicitaciones! Terminó la revisión de los nombres científicos con la herramienta Species Matching.
Citación sugerida
Plata C., Ortíz R., Marentes E., Lozano J. (2021). Laboratorio de datos, Ciclo de formación. Consultado a través del SiB Colombia. Disponible en https://biodiversidad.co/formacion/laboratorios.
Este sitio web usa cookies, algunas son técnicamente necesarias otras mejoran la experiencia de usuario. Puede rechazar las cookies no esenciales seleccionando “Rechazar”. Consulte la Política de privacidad del sitio web para obtener más información.