En un entorno digital donde gran parte del contenido web se genera dinámicamente mediante JavaScript, contar con una herramienta capaz de indexar y archivar este tipo de información se ha vuelto esencial. Sosse (Selenium Open Source Search Engine) responde a este desafío con una solución open source robusta y flexible, diseñada para desarrolladores, investigadores y profesionales del análisis web.
Basado en Selenium y escrito en Python, Sosse permite rastrear, archivar y buscar páginas web de forma inteligente, incluso aquellas que requieren renderizado dinámico a través de navegadores como Mozilla Firefox o Google Chromium. Además, se apoya en PostgreSQL para el almacenamiento estructurado de los datos, y está licenciado bajo GNU AGPLv3, lo que garantiza su compromiso con el software libre.
Funcionalidades clave de Sosse
- 🔍 Búsqueda avanzada de contenido en páginas web, incluyendo aquellas con carga dinámica.
- ♻️ Rastreo recurrente configurable, con posibilidad de adaptarse a cambios detectados en las páginas.
- 🗃️ Archivado web completo, con descarga de HTML, activos y reescritura de enlaces para uso local.
- 🏷️ Sistema de etiquetas para clasificar y gestionar los contenidos archivados de forma eficiente.
- 📥 Descarga de archivos binarios en lote desde páginas web.
- 📡 Webhooks personalizables, para integrarse con servicios externos y flujos automatizados como extracción de datos, generación de resúmenes o etiquetado inteligente.
- 🔔 Generación de feeds Atom, útil para seguir sitios que no disponen de RSS o detectar nuevas publicaciones por palabra clave.
- 🔐 Soporte de autenticación, que permite rastrear contenido tras inicio de sesión.
- 👥 Gestión de usuarios y permisos, con acceso autenticado, historial de búsqueda privado y posibilidad de realizar búsquedas de forma anónima.
Instalación rápida con Docker
Para probar Sosse en pocos minutos, basta con ejecutar:
docker run -p 8005:80 biolds/sosse:stable
Después, se puede acceder vía navegador a http://127.0.0.1:8005/
utilizando las credenciales por defecto (usuario: admin / contraseña: admin).
Para instalaciones persistentes o personalizadas, se recomienda consultar la documentación completa en el repositorio oficial.
Una herramienta versátil para proyectos exigentes
Sosse está diseñado para facilitar tareas complejas de vigilancia digital, recopilación de datos, análisis de cambios web y monitorización de contenido, tanto en proyectos personales como en contextos empresariales o académicos. Su integración con herramientas externas mediante webhooks lo convierte en una base potente para automatizar flujos de trabajo relacionados con Inteligencia Artificial, minería de datos o gestión documental.
Ya sea para rastrear contenido en la web oscura, construir una base de datos temática o archivar contenido institucional, Sosse ofrece el control, la extensibilidad y la libertad que solo una solución open source puede proporcionar.
Más información y código fuente disponible en:
👉 https://github.com/biolds/sosse