XTF, visualizar colecciones

Escenario: una institución que cuenta con una colección de 20,000 imágenes digitalizadas. La intención: ofrecer un servicio de búsqueda en la web. Asumamos que el almacenamiento está asegurado con un repositorio. Asumamos también que la institución tiene un área de sistemas, familiarizado con un entorno de producción en Java.

El problema: falta decidir cómo se recuperarán y mostrarán las imágenes cuando los usuarios hagan las búsquedas en la web. Un estudio de viabilidad puede partir de las siguientes tres preguntas: ¿Desarrollar nuevos componentes, aprovechar funcionalidad adicional que ofrece el software base del repositorio o reutilizar componentes ya disponibles en el mercado?

Entre las opciones para la tercera pregunta se puede considerar a XTF (Extensive Text Framework). Desarrollado por la California Digital Library, XTF (con versión 3.1 recientemente lanzada) se ofrece como una plataforma de software libre para desarrollo front-end, es decir, se puede acceder al código fuente para personalizar la presentación de colecciones.Por un lado, permite la construcción de índices de búsqueda extrayendo los metadatos de los documentos almacenados. Por otro, potencia la recuperación de información con búsquedas facetadas. Por ejemplo, los resultados de las búsquedas realizadas en el proyecto web sobre Mark Twain pueden ser fltrados con la ayuda de las facetas.

Resultado de búsqueda "book" en el proyecto Mark Twain. Filtro por facetas en la columna de la izquierda

XTF usa la librería Lucene, motor de búsqueda para la extracción de datos a texto completo y cuyo rendimiento con altos volúmenes de documentos está comprobado. Así por ejemplo LexML, el portal brasileño especializado en jurisprudencia e información jurídica, cuenta con XTF para la extracción de datos en más de un millón de documentos.

Ciertamente XTF es una aplicación Java, por lo que requiere de un entorno específico para ejecutarse. Además, demanda conocer XSLT (y por extensión XML) para la personalización. Si nos remitimos al escenario descrito inicialmente, habría facilidad para aceptar una aplicación Java ya que hay personal en el área de sistemas que reconoce este entorno y que sabrá interactuar con Java a través de la línea de comandos. No obstante, elaborar hojas de estilo XSLT eficientes exigirá horas de aprendizaje para su dominio.

Un factor de decisión para escoger una aplicación es la facilidad de interacción con aplicaciones ya existentes en la organización. En este plano, ¿XTF podrá comunicarse facilmente con el actual repositorio de almacenamiento de imágenes en el escenario descrito?. Punto crítico sobretodo en el intercambio de metadatos. Browne (2011), por ejemplo, propone la creación de una clase Java que permita la extracción de metadatos cuando la colección está almacenada bajo Dspace. La exigencia de interoperabilidad demanda de experticia y provisión de tiempo, por lo que antes de optar finalmente por XTF habría que hacer pruebas preliminares que permitan medir la viabilidad de la integración con los sistemas existentes.

Hablando de soporte, existe una comunidad de apoyo en Google Groups. El flujo de comunicación no es tan activo pero complementa el material de capacitación disponible en la propia web oficial del proyecto.

Como parte de un examen preliminar, XTF es viable en nuestro escenario descrito. No está destinado a la gestión de colecciones pero permite la presentación de imagenes con la ayuda de un (configurable) motor de búsqueda. Eso sí: requiere experticia para la administración y el mantenimiento. En ese sentido, difiere de las facilidades que ofrece otras plataformas de exhibición de documentos como Omeka.

guilleten

Notas en gestión de información, propiedad intelectual