16 de febrero, 2022

Open Refine para limpiar y validar datos sobre biodiversidad de Colombia

Herramientas para mejorar la calidad de los datos sobre biodiversidad usadas en el SiB Colombia.

El estudio de la biodiversidad de Colombia se hace desde múltiples frentes distintos. Desde el SiB Colombia nos encargamos de estudiarla a través de los datos abiertos, donde buscamos facilitar el procesamiento y la publicación de los mismos. Una de las herramientas que utilizamos para limpiar y validar datos es Open Refine, un software abierto para el procesamiento masivo y automatizado. Mediante la aplicación de filtros y rutas de limpieza, se optimiza el tiempo de trabajo cuando se revisa de manera exhaustiva un conjunto de datos para su publicación.

A menudo, Open Refine es comparado con Excel; pero, en realidad, son herramientas diferentes. La primera diferencia, es que en Open Refine no se pueden agregar nuevas filas de datos, como en Excel; resulta ser más adecuado para explorar, limpiar y vincular datos. Excel es útil para reorganizar información en conjuntos de datos que ya están limpios; por otra parte para conjuntos de datos desorganizados y difíciles de homogeneizar, donde las columnas contienen formatos distintos de números y texto, Open Refine es la herramienta indicada.

Al validar y limpiar datos sobre biodiversidad, estos pueden encontrarse en formatos, idiomas y estándares diferentes. ¿Cómo organizar un conjunto de datos que contiene información no estandarizada, por ejemplo: en la celda donde se cita un autor, este aparece como “Juan García”, “juan garvía” (sic), “J. García” o “García, J”? Open Refine permite solucionar este tipo de problemas, y muchos otros, de manera rápida y fácil.

Open Refine puede usarse para depurar todo tipo de datos y, lo mejor, es de código abierto. En el contexto del manejo de información sobre biodiversidad, es recomendable que se siga el estándar Darwin Core.

Si quiere conocer más sobre este estándar, consulte la sección sobre plantillas Darwin Core.

¿Cómo usar Open Refine para corregir datos de biodiversidad?

Con Open Refine se pueden corregir errores de digitación, espacios en blanco innecesarios (que afecten la interpretación del archivo), duplicados, elementos con la misma información pero en formatos distintos y muchos otros de manera masiva. Es decir, con la aplicación de diversos filtros, conjuntos y rutinas (secuencia de instrucciones), es posible corregir, con un solo clic, un error que se repite múltiples veces en un archivo.

Adicional a las funciones ya mencionadas, es posible validar la taxonomía de un conjunto de datos utilizando Open Refine. Esto se logra a través del API de GBIF, el cual facilita un árbol taxonómico actualizado, robusto y respaldado por la comunidad científica.

También es posible conectar Open Refine con muchos otros servicios externos utilizando sus API. Una guía paso a paso se encuentra disponible en los Laboratorios del Ciclo de Formación del SiB Colombia.

Por último, el video ¿Cómo usar Open Refine? es una introducción a las funciones más utilizadas de este software.

Escrito por: Sara Gaviria.