Validación taxonómica - WoRMS (Datos Marinos)

Objetivo

Realizar la validación taxonómica automática de los nombres científicos de especies marino-costeras para detectar posibles errores de formato y precisión. La validación se hará por medio del servicio WoRMS TaxonMatch.

Introducción

Convenciones

  • Los elementos del estándar Darwin Core aparecen en color verde y cursiva. Por ejemplo: measurementUnit.
  • Los archivos a utilizar en los ejercicios se muestran entre comillas angulares, negrita, y tienen una tipografía diferente. Por ejemplo: «archivo_Ejemplo.xls».
  • Las secciones, ventanas y componentes de las herramientas utilizadas se muestran entre comillas inglesas y en negrita. Por ejemplo: “Create Project”.
  • Las opciones de las herramientas que se asocian a instrucciones (dar clic, seleccionar, etc.) aparecen en color amarillo y cursiva. Por ejemplo: New project.
  • Las secuencias de instrucciones y pasos se muestran en color amarillo, cursiva y negrita. Por ejemplo: Paso 1 > Paso 2.
  • Las líneas que se escriben directamente en las herramientas, para programar o realizar algún proceso en específico, aparecen en formato de código, con una tipografía distinta de color negro. Por ejemplo: value.replace(“ sp.”,””).

Sobre la Herramienta

La herramienta WoRMS TaxonMatch es un servicio del Registro Mundial de especies Marinas (WoRMS) que permite validar de manera automática y masiva hasta 1 500 nombres científicos. La herramienta compara los nombres científicos sometidos contra la base de datos Aphia, la cual combina múltiples bases de datos marinas verificadas por taxónomos de los diferentes grupos marinos documentados en WoRMS.

Esta herramienta le permite al usuario obtener el nombre válido con sus fuentes y la clasificación de cada taxón (kingdom, phylum, class, order, family, genus) y su estatus taxonómico (Sinónimo, Aceptado o Dudoso). Adicionalmente, le permite obtener los identificadores de WoRMS (equivalente al campo DwC scientificNameID), los cuales son requeridos para la publicación de datos en el SiB Marino y el Ocean Biogeographic Information System - OBIS.

Enlace

WoRMS TaxonMatch: http://www.marinespecies.org/aphia.php?p=match

Requerimientos

  • La herramienta admite archivos con los siguientes formatos:
    • Formato Excel (.xls o .xlsx).
    • Formato CSV.
    • Formato TXT.
  • Para realizar este ejercicio, es necesario contar con un procesador de archivos de texto como Excel.

Archivo de trabajo

Descargue el archivo «datos_CasoMarinoCosteros.xls» para realizar el laboratorio.

¡Precaución!

Esta guía se encuentra en construcción, así que pueden haber algunas modificaciones de forma y contenidos en los próximos días.

Paso 1 - Exploración del archivo

Abra el archivo «datos_CasoMarinoCosteros.xls» y explore su contenido. Encontrará una columna con el elemento occurrenceID y tres columnas con información taxonómica: class, family y scientificName. Como podrá notar, este archivo no tiene la taxonomía superior completa y tal vez algunos taxones no correspondan a grupos marino-costeros. Por consiguiente, el servicio TaxonMatch de WoRMS le facilitará la tarea de completar la clasificación e identificar los taxones no marinos.

Nota: Revise que los nombres en la columna del elemento scientificName no tengan calificadores como sp., morfotipo, cf., indet. larva, etc. Si los tiene, elimínelos, ya que estos no forman parte del nombre científico.

Paso 2 - Configuración de la herramienta

En WoRMS vaya al módulo Tools > MatchTaxa o ingrese directamente al vínculo https://www.marinespecies.org/aphia.php?p=match.

Figura 1. Vista de la herramienta WoRMS TaxonMatch y las diferentes opciones de carga y configuración: A. Sección de carga, B. Configuración de la lectura del archivo, C. Configuración de la validación taxonómica, D. Configuración de la descarga.

2.1. Selección del archivo

En la opción File, busque el archivo que descargó previamente en su computador y selecciónelo (Fig. 1A).

2.2. Configuración de la lectura del archivo

Dependiendo del tipo de archivo que vaya a cargar, Excel, .csv o .txt, puede configurar la lectura del mismo con las siguientes opciones (Fig. 1B):

  • Row delimiter: cuando se carga un archivo de texto plano (.csv, .txt), permite seleccionar el caracter que delimita las filas: \n (Linefeed), \r (Return), tabulación (Tab), punto y coma (;), coma (,) o pleca (|).
  • First row contains column names: permite indicar si la primera fila del archivo contiene los nombres de las columnas. Dichos nombre corresponden a los elementos DwC de la taxonomía. Por lo tanto, si no los tiene, la herramienta le solicitará darles un nombre antes de procesar el archivo.
  • Column delimiter: cuando se carga un archivo de texto plano (.csv, .txt), permite seleccionar el caracter que delimita las columnas: tabulación (Tab), punto y coma (;), coma (,) o pleca (|).

Dado que se cargó un archivo Excel, el delimitador estará dado automáticamente por el sistema y no debe hacer ajustes en las opciones Row delimiter ni Column delimiter.

Como la primera fila del archivo contiene los nombres de las columnas, marque la casilla First row contains column names (Fig. 1B).

2.3. Configuración de la validación

Para validar la taxonomía del conjunto de datos, la herramienta le permite especificar las siguientes opciones:

  • Match authority: seleccione esta opción si su conjunto de datos tiene la autoría del nombre científico en una columna adicional (scientificNameAuthorship) y desea incluirla como criterio para validar el nombre.
  • Match upto: si se tiene la taxonomía superior completa del taxon (phylum, class, order, family y genus), puede añadir esta opción para incluir estos parámetros en la validación. Generalmente, es suficiente usar el elemento scientificName. Esto también permite que la validación sea mucho más rápida.
  • Limit to taxa belonging to: permite limitar la consulta a un grupo biológico particular dentro de WoRMS; por ejemplo, Porifera, Copepoda etc. Esta función es especialmente útil cuando hay homónimos. Para usarla, introduzca los primeros caracteres del nombre del taxón para que aparezca una lista de selección.

En este caso, mantenga la opción Match authority sin seleccionar, ya que no se cuenta con esta información. En el menú de Match upto, seleccione el elemento scientificName en la lista desplegable y deje vacía la opción Limit to taxa belonging to (Fig. 1C).

2.4. Configuración de la descarga

Antes de iniciar la consulta, debe elegir qué datos que desea obtener de WoRMS. Para ello, seleccione una o varias de las siguientes opciones en la sección “Output”:

  • AphiaID: identificador único de la base de datos Aphia para cada taxón.
  • LSID: Life Science Identifier de WoRms, el cual incluye el AphiaID y es obligatorio para la publicación a través del SiB Marino y OBIS. Es equivalente al elemento DwC scientificNameID.
  • TSN: identificador único de ITIS (Integrated Taxonomic Information System) para cada taxón.
  • scientificName: el nombre científico del taxón con el que hubo una coincidencia dentro de WoRMS.
  • Authority: nombre del autor del nombre científico, corresponde al elemento DwC scientificNameAuthorship.
  • Accepted name: nombre científico aceptado del taxón.
  • Classification: taxonomía superior del taxón (kingdom, phylum, class, order, family y genus).
  • Qualitystatus: indica el tipo de revisión taxonómica que ha realizado el equipo de WoRMS sobre el taxón.
  • Taxon status: estatus taxonómico del nombre científico del taxón: aceptado, no acepetado, ambiguo, entre otros.
  • Environment: corresponde a los elementos del DwC que describen el tipo de ambiente donde habita el taxón: isMarine (hábitat marino), isBrackish (hábitat salobre), isFresh (hábitat de agua dulce) e isTerrestrial (hábitat terrestre). En los elementos mencionados, 1 indica que el taxon habita en ese ambiente y 0 significa que no habita.
  • Citation: Citación sugerida de la fuente taxonómica utilizada para validar el conjunto de datos.

Para este ejercicio, y para validaciones futuras, marque las casillas de las opciones: LSID, scientificName, Authority, Accepted name, Classification, Taxon status y Environment (Fig. 1D).

Una vez que haya configurado las opciones como se muestra en la Figura 1, haga clic en Next.

Paso 3 - Previsualización del archivo

Luego de cargar los datos, se abrira una vista previa de las primeras 20 filas (Fig. 2). Si el conjunto de datos selecionado tienes las columnas nombradas según el estándar DwC, estas seran reconocidas y mapeadas de manera automática. Sin embargo, siempre se debe comprobar que el nombre de la columna desplegable coincida con el nombre de la columna de los datos cargados (Fig. 2).

Figura 2. Vista previa de los datos y verificación del mapeo de las columnas.

Una vez que haya verificado la lectura correcta de los datos por parte de la herramienta y el mapeo adecuado de las columnas, dé clic en Match(Fig. 2).

Dependiendo del volumen de los datos, la validación puede tardar algunos segundos a minutos. Durante este tiempo, no cierre ni cambie la ventana de navegación (Fig. 3).

Figura 3. Mensaje de procesamiento del archivo. Es necesario que la ventana permanezca abierta hasta que el proceso acabe.

Paso 4 - Revisión de los resultados

Al finalizar la validación, en la parte superior de la herramienta, encontrará el porcentaje de coincidencia global obtenido en la validación (Fig. 4A). Explore los nombres con los que hubo coincidencia en la columna WoRMS match (Fig. 4B). Encontrará diferentes tipos de resultados en esta columna:

  • Nombres en color verde: se obtiene cuando el nombre científico ingresado coincidió exactamente o difiere por máximo 3 caracteres. La información de dicho nombre aparecerá en la descarga.
  • Nombres ambiguos (lista desplegable): aparece cuando el taxón tiene un homónimo. En estos casos, verá un recuadro con una lista desplegable para seleccionar el que corresponda al nombre aceptado o al autor requerido.
  • (none): significa que no hubo coincidencias entre el nombre ingresado y WoRMS. Por lo tanto, estos nombres deberán ser verificados con otro referente. Posiblemente, el taxón es únicamente terreste y por ello no se encuentra en la base de datos de WoRMS.

Figura 4. Resultados; A.Porcentaje de coincidencia con WoRMS, B. Diferentes tipos de resultados en la columna WoRMS match.

Revise los nombres de la columna WoRMS match y haga los ajustes necesarios. Cuando haya nombres ambiguos, puede hacer una búsqueda manual en WoRMS para decidir qué alternativa seleccionar. Por ejemplo, para el género Apogon, la lista desplegable muestra dos opciones (Fig. 5):

Figura 5. Ejemplo de un nombre ambiguo “Apogon” que requiere revisión. En la lista desplegable se muestran las coincidencias con WoRMS.

Usando la barra de búsqueda general de WoRMS (https://www.marinespecies.org/index.php), busque los dos nombres que aparecen en la lista desplegable (Fig. 6).

Figura 6. Búsqueda general en WoRMS.

Tras la búsqueda, obtendrá los siguientes enlaces:

Al ver en detalle cada una de las opciones, notará que la segunda corresponde a una planta y no a un pez. Se sabe que este género es un pez, ya que en el conjunto de datos se documenta bajo la clase Actinopterygii. Por lo tanto, se descarta la segunda opción.

Puede hacer este ejercicio de búsqueda para los demás nombres ambiguos.

Paso 5 - Descarga de los resultados

En la parte inferior de la ventana que contiene los resultados, podrá configurar el formato del archivo de la descarga. Seleccione la primera opción (Excel sheet XLS) y dé clic en Download (Fig. 7).

Figura 7. Configuración y descarga.

Posteriormente, obtendrá un archivo con el nombre original del conjunto de datos seguido de la palabra matched, así: «datos_casomarinocosteros_matched.xls».

Paso 6 - Exploración de los resultados

6.1. Comprender el contendio del archivo

Abra el archivo de resultados con Excel u OpenRefine y explore las columnas obtenidas, así como su contenido. El archivo tendrá la siguiente estructura:

  • AphiaID: identificador único de la base de datos Aphia para cada taxón.
    • LSID: Life Science Identifier de WoRms, el cual incluye el AphiaID y es obligatorio para la publicación a través del SiB Marino y OBIS. Es equivalente al elemento DwC scientificNameID.
    • TSN: identificador único de ITIS para cada taxón.
    • scientificName: el nombre científico del taxón con el que hubo una coincidencia dentro de WoRMS.
    • Authority: Nombre del autor del nombre científico, corresponde al elemento DwC scientificNameAuthorship.
    • Accepted name: nombre científico aceptado del taxón.
    • Classification: taxonomía superior del taxón (_kingdom, phylum, class, order, family y genus).
    • Qualitystatus: indica el tipo de revisión taxonómica que ha realizado el equipo de WoRMS sobre el taxón.
    • Taxon status: estatus taxonómico del nombre científico del taxón: aceptado, no acepetado, ambiguo, entre otros.
    • Environment: corresponde a los elementos del DwC que describen el tipo de ambiente donde habita el taxón: isMarine (habitat marino), isBrackish (habitat salobre), isFresh (habitat de agua dulce) y isTerrestrial (habitat terrestre). En los elementos mencionados, 1 indica que el taxon habita en ese ambiente y o significa que no habita.
    • Citation: Citación sugerida de la fuente taxonómica utilizada para validar el conjunto de datos.
  • Columnas originales: al inicio del archivo, encontrará las columnas que cargó originalmente en la herramienta, incluso en el mismo orden.

  • “Match type”: una columna que detalla el nivel de coincidencia que hubo entre el nombre científico ingresado y WoRMS. Este elemento le permitirá identificar los nombres que debe revisar en detalle. Las niveles que aparecerán, de mayor a menor coincidencia, son:

    • exact: todos los caracteres coinciden de manera exacta.
    • exact_subgenus: coincidencia exacta, pero incluyendo el subgénero.
    • phonetic: sonidos fonéticos similares a pesar de diferencias menores en la escritura (análisis a partir del algoritmo soundex).
    • near_1: muy buena coincidencia, excepto por un carácter (este nivel de coincidencia bastante confiable).
    • near_2: buena coincidencia, excepto por dos caracteres (se requiere una revisión adicional del nombre).
    • near_3: buena coincidencia, excepto por tres caracteres (se requiere una revisión cuidadosa del nombre).
    • match_quarantine: coincide con un nombre que se encuentra actualmente en cuarentena. En este caso, se recomienda ponerse en contacto con el equipo de WoRMS (info@marinespecies.org).
    • match_deleted: coincide con un nombre que ha sido eliminado y no hay una alternativa disponible en WoRms. En este caso, se recomienda ponerse en contacto con el equipo de WoRMS (info@marinespecies.org).
  • “LSID”: Life Science Identifier de WoRms, el cual incluye el AphiaID y es obligatorio para la publicación a través del SiB Marino y OBIS. Es equivalente al elemento DwC scientificNameID.

  • “Taxon status”: estatus taxonómico del nombre científico del taxón: aceptado, no acepetado, ambiguo, entre otros. Este elemento le permitirá identificar qué nombres debe revisar en detalle.

  • scientificName: el nombre científico del taxón con el que hubo una coincidencia dentro de WoRMS.

  • “Authority”: nombre del autor del nombre científico, corresponde al elemento DwC scientificNameAuthorship.

  • “ScientificName_accepted”: nombre científico aceptado del taxón. En caso de que el “Taxon status” del nombre sea diferente a accepted, puede revisar y decidir si usa el nombre aceptado.

  • “Authority_accepted”: autoría aceptada del nombre científico. Corresponde al elemento DwC scientificNameAuthorship.

  • “Classification”: taxonomía superior del taxón (kingdom, phylum, class, order, family, genus, subgenus, species y subspecies. Puede utilizar estos elementos para completar el conjunto de datos o hacer correcciones respecto al archivo original.

  • Columnas “Environment”: corresponde a los elementos del DwC que describen el tipo de ambiente donde habita el taxón: isMarine (habitat marino), isBrackish (habitat salobre), isFresh (habitat de agua dulce) e isTerrestrial (habitat terrestre). En los elementos mencionados, 1 indica que el taxon habita en ese ambiente y 0 significa que no habita.

Figura 8. Vista del archivo de resultados descargado.

6.2. Identificar y resolver inconsistencias

  • Explore la columna “Match type” y revise los datos que tuvieron un valor distinto a exact y los que están vacíos. Luego, ajuste los nombres científicos y la taxonomía superior de acuerdo a los elementos scientificName y “ScientificName_accepted”, si aplican.
Tip: Los nombres sugeridos por WoRMS corresponden a especies marinas. Revise con cuidado la taxonomía sugerida para el género Carollia, respecto a la información y clase original de los datos.
  • Nuevamente, revise los nombres que están vacíos y no tuvieron ninguna coincidencia con WoRMS en la columna “Match type”. ¿Podría explicar por qué no hubo coindicencia?

Es posible que algunos nombres de taxones marinos no esten aún en WoRMS. Para agregarlos, es necesario seguir las recomendaciones de la documentación de WoRMS en las secciones Add a new accepted taxon y Add a new unaccepted taxon.

  • Explore la columna “Taxon status” y revise los nombres que tengan valores distintos a accepted y los que estén vacíos. Compare dichos nombres con la columna “ScientificName_accepted” y realice los respectivos ajustes.

  • Explore las columnas isMarine (hábitat marino), isBrackish (hábitat salobre), isFresh (hábitat de agua dulce) e isTerrestrial (hábitat terrestre) para identificar si hay registros que solo correspondan a hábitats terrestres. Si los hay, verifique la especie y ajuste la taxonomía superior de ser necesario.

¿Identificó otros ajustes a realizar en el conjunto de datos a partir de la validación?

Paso 7 - Verificación del resultado

Descargue y compare el siguiente archivo, validado según las definiciones del estándar Darwin Core, con el archivo que trabajó en el laboratorio e identifique aciertos y oportunidades de mejora. En la hoja 1, encontrará el archivo descargado de la herramienta con los ajustes mencionados en el paso 6. En la hoja 2, hallará los datos estructurados según el DwC.

¿Qué diferencias encontró con sus resultados?


¡Felicitaciones! Terminó la revisión de los nombres científicos con la herramienta WoRMS.


Atribución y uso de los laboratorios

La licencia CC-BY permite usar, redistribuir y construir sobre estos contenidos libremente.

¡La difusión de estos laboratorios contribuirá a la publicación de más y mejores conjuntos de datos sobre biodiversidad!

Citación sugerida

Plata C., Ortíz R., Marentes E., Lozano J. (2021). Laboratorio de datos, Ciclo de formación. Consultado a través del SiB Colombia. Disponible en https://biodiversidad.co/formacion/laboratorios.