Hortal, J., Lobo, J. M. & Jiménez-Valverde, A. (2007) Limitations of biodiversity databases: case study on seed-plant diversity in Tenerife (Canary Islands). Conservation Biology, 21, 853-863. doi:1111/j.1523-1739.2007.00686.x

Abstract: Databases on the distribution of species can be used to describe the geographic patterns of biodiversity. Nevertheless, they have limitations. We studied three of these limitations: (1) inadequacy of raw data to describe richness patterns due to sampling bias, (2) lack of survey effort assessment (and lack of exhaustiveness in compiling data about survey effort), and (3) lack of coverage of the geographic and environmental variations that affect the distribution of organisms. We used a biodiversity database (BIOTA-Canarias) to analyze richness data from a well-known group (seed plants) in an intensively surveyed area (Tenerife Island). Observed richness and survey effort were highly correlated. Species accumulation curves could not be used to determine survey effort because data digitalization was not exhaustive, so we identified well-sampled sites based on observed richness to sampling effort ratios. We also developed a predictive model based on the data from well-sampled sites and analyzed the origin of the geographic errors in the obtained extrapolation by means of a geographically constrained cross-validation. The spatial patterns of seed-plant species richness obtained from BIOTA-Canarias data were incomplete and biased. Therefore, some improvements are needed to use this database (and many others) in biodiversity studies. We propose a protocol that includes controls on data quality, improvements on data digitalization and survey design to improve data quality, and some alternative data analysis strategies that will provide a reliable picture of biodiversity patterns.

Resumen: Las bases de datos sobre la distribución de especies pueden ser utilizadas para describir los patrones geográficos de la biodiversidad. Sin embargo, tienen sus limitaciones. Estudiamos tres de esas limitaciones: (1) inadecuación de datos crudos para describir los patrones de riqueza debido a sesgos en el muestreo, (2) falta de esfuerzo de muestreo (y falta de exhaustividad en la compilación de datos sobre esfuerzo de muestreo), y (3) falta de cobertura de las variaciones geográficas y ambientales que afectan la distribución de los organismos. Utilizamos una base de datos de biodiversidad (BIOTA-Canarias) para analizar los datos de riqueza de un grupo bien conocido (plantas con semillas) en un área muestreada intensivamente (Isla Tenerife). La riqueza de especies observada y el esfuerzo de muestreo estuvieron altamente correlacionados. Las curvas de acumulación de especies no pudieron ser usadas para determinar el esfuerzo de muestreo porque la digitalización de datos no era exhaustiva, así que identificamos sitios bien muestreados con base en la proporción riqueza – esfuerzo de muestreo. También desarrollamos un modelo predictivo basado en los datos de sitios bien muestreados y analizamos el origen de los errores geográficos en la extrapolación obtenida por medio de la validación cruzada constreñida geográficamente. Los patrones espaciales de riqueza de especies de plantas con semillas obtenidos de datos de BIOTA-Canarias fueron incompletos y sesgados. Por lo tanto, se necesitan algunas mejoras para utilizar esta base de datos (y muchas otras) en estudios de biodiversidad. Proponemos un protocolo que incluye controles de la calidad de datos, mejoras en la digitalización de datos y diseño de muestreo para mejorar la calidad de los datos y algunas estrategias alternativas de análisis de datos que proporcionarán una descripción confiable de los patrones de biodiversidad.