Perplexity elude la política de robots.txt mediante crawlers furtivos, según alerta de Cloudflare

Cloudflare ha publicado un informe en su blog oficial en el que denuncia que el motor de respuesta impulsado por IA, Perplexity, estaría utilizando crawlers no declarados para eludir los archivos robots.txt y los bloqueos de red que los propietarios de sitios web han configurado. La compañía, conocida por su infraestructura de mitigación de amenazas y gestión de bots, describió una serie de pruebas que demuestran que Perplexity modifica su user‑agent y cambia de ASNs para ocultar su actividad de rastreo, infringiendo normas de la RFC 9309.

Conducta observada

Los investigadores de Cloudflare señalan que, aunque el motor de Perplexity inicia su rastreo con el agente declarado “Perplexity‑User/1.0” (aproximadamente 20–25 millones de solicitudes diarias), cuando se le bloquea, recurre a un user‑agent genérico que imita a Google Chrome en macOS, con alrededor de 3–6 millones de solicitudes diarias. Ambos agentes intentan acceder al contenido con fines de scraping, contraviniendo los principios de transparencia y respeto a los archivos robots.txt descritos en la especificación de robots.

El crawling furtivo se basa en tres estrategias principales:

Uso de agentes genéricos: cuando el agente declarado es bloqueado, el crawler pasa a una cadena de agente del tipo
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36, intentando disimularse como un navegador convencional.
Rotación de IP y cambios de ASN: el crawler utiliza IPs que no aparecen en el rango oficial de Perplexity y cambia de Autonomous System Number para evitar detección en los niveles de red y en los archivos robots.txt.
Escala de acceso: la actividad se extiende a decenas de miles de dominios y millones de peticiones al día, según el propio análisis de Cloudflare.

Metodología de la prueba

Configuración de dominios de prueba: Cloudflare creó dominios nuevos (p. ej., testexample.com y secretexample.com) sin presencia previa en motores de búsqueda y con un archivo robots.txt que bloqueaba toda actividad automatizada.
Consulta a Perplexity: tras formular preguntas a la IA de Perplexity sobre esos dominios, se obtuvo información detallada del contenido hospedado en los dominios bloqueados, a pesar de las restricciones implementadas.
Observación de los resultados: cuando los bots declarados de Perplexity fueron bloqueados mediante reglas WAF específicas, la IA respondió con datos precisos, evidenciando que sus crawler ocultos habían accedido al contenido sin respetar los archivos robots.txt.

Cuando la captura de los crawlers furtivos fue exitosa, Perplexity intentó generar la respuesta usando fuentes externas, produciendo respuestas menos concretas y sin detalle, lo que indica que el bloqueo había sido efectivo.

Comparación con otros bots

El informe señala que Open AI mantiene una política de claridad y respeto por los archivos robots.txt. En pruebas similares con ChatGPT, la IA de OpenAI consultó el archivo robots.txt y detuvo su rastreo al encontrar una directiva de disallow. Además, al recibir una página de bloqueo, la IA también cesó el proceso de rastreo, sin recurrir a otros agentes de usuario.

Reacciones y medidas de protección

Cloudflare añadió el crawler furtivo de Perplexity a su lista de bots no verificados y aplicó heurísticas que bloquean el rastreo no declarado. Los clientes con reglas de bloqueo existentes están ya protegidos; los que prefieran desafiar el tráfico pueden crear reglas de challenge para permitir el acceso a usuarios reales. La compañía también incorporó firmas de este crawler en sus managed rules, accesibles incluso para usuarios gratuitos.

Desde el anuncio de Content Independence Day, más de dos millones quinientos mil sitios web han adoptado la función de robots.txt gestionada por Cloudflare para prohibir el entrenamiento de IA sin autorización. La empresa anticipa que los operadores de bots seguirán desarrollando técnicas de evasión, mientras que Cloudflare continuará adaptando sus métodos de detección y bloqueo.

Perspectivas

Cloudflare está colaborando con expertos técnicos y de políticas a nivel global, como los esfuerzos de la IETF para estandarizar extensiones al robots.txt, con el objetivo de establecer principios medibles para los operadores de bots de buena fe. La empresa afirma que su misión sigue siendo “construir un internet mejor y más seguro”, acompañando a los propietarios de sitios en la defensa de sus contenidos frente a crawlers no autorizados.

Conducta observada

Metodología de la prueba

Comparación con otros bots

Reacciones y medidas de protección

Perspectivas

Te puede interesar...